在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

理解KV cache的作用及優化方法

jf_pmFSk4VX ? 來源:知乎 ? 2023-12-04 15:24 ? 次閱讀

作者丨紫氣東來

在 Transformer 的 Encoder-base 的模型(如 BERT系列)中,推理和訓練過程保持了高度的統一性(差異僅僅在于是否存在反向過程)。而在 Decoder-base 的生成式模型(如 GPT系列)中,推理和訓練存在相當大的差異性,主要體現在推理過程具有以下3點特征:

自回歸

兩階段(第一階段輸入 prompt,第二階段輸入上一個生成的token)

KV cache

以上三點實際上也是相輔相成、不可分割的,其中自回歸的生成模式是根本原因,兩階段是外在的體現形式,KV cache是優化手段。

下面將通過梳理整個推理過程,來理解 KV cache 的作用及優化方法。

一、KV cache 的由來與基本矛盾

885a422a-9125-11ee-939d-92fbcf53809c.png

第一階段(prompt 輸入):

88749c6a-9125-11ee-939d-92fbcf53809c.png

8884c4a0-9125-11ee-939d-92fbcf53809c.png

888bc2aa-9125-11ee-939d-92fbcf53809c.png

889cd7f2-9125-11ee-939d-92fbcf53809c.jpg

KV cache 作用過程

第二階段(token by token):

88b78a48-9125-11ee-939d-92fbcf53809c.png

88bbef52-9125-11ee-939d-92fbcf53809c.png

88c97186-9125-11ee-939d-92fbcf53809c.png

KV cache的顯存占用分析

88d47d88-9125-11ee-939d-92fbcf53809c.png

88e1e108-9125-11ee-939d-92fbcf53809c.png

batch size s+n KV cache(GB) KV cache/weight
4 4096 81 0.23
16 4096 324 0.93
64 4096 1297 3.71

可見隨著 batch size 和 長度的增大,KV cache 占用的顯存開銷快速增大,甚至會超過模型本身。

而 LLM 的窗口長度也在不斷增大,因此就出現一組主要矛盾,即:對不斷增長的 LLM 的窗口長度的需要與有限的 GPU 顯存之間的矛盾。因此優化 KV cache 就顯得非常必要。

二、KV cache 優化的典型方法

2.1 共用 KV cache:MQA,GQA

MQA (Multi Query Attention,多查詢注意力) 是多頭注意力的一種變體。其主要區別在于,在 MQA 中不同的注意力頭共享一個K和V的集合,每個頭只單獨保留了一份查詢參數。因此K和V的矩陣僅有一份,這大幅度減少了顯存占用,使其更高效。由于MQA改變了注意力機制的結構,因此模型通常需要從訓練開始就支持 MQA 。也可以通過對已經訓練好的模型進行微調來添加多查詢注意力支持,僅需要約 5% 的原始訓練數據量 就可以達到不錯的效果。包括 Falcon、SantaCoder、StarCoder 等在內很多模型都采用了 MQA 機制。

# Multi Head Attention
self.Wqkv = nn.Linear(     # Multi-Head Attention 的創建方法
    self.d_model,
    3 * self.d_model,     # Q、K和V 3 個矩陣, 所以是 3 * d_model
    device=device
)
query, key, value = qkv.chunk(3, dim=2)      # 每個 tensor 都是 (1, 512, 768)

# Multi Query Attention
self.Wqkv = nn.Linear(       # Multi-Query Attention 的創建方法
    d_model,
    d_model + 2 * self.head_dim,    # 只創建Q的頭向量,所以是 1* d_model, 而K和V不再具備單獨的頭向量, 所以是 2 * self.head_dim
    device=device,
)
query, key, value = qkv.split(
    [self.d_model, self.head_dim, self.head_dim],    # query -> (1, 512, 768), key   -> (1, 512, 96), value -> (1, 512, 96)
    dim=2
)

88ec3ba8-9125-11ee-939d-92fbcf53809c.jpg

MHA v.s. GQA v.s. MQA

GQA(Grouped Query Attention,分組查詢注意力)是一種介于多頭注意力和 MQA 之間的折中方案。它將查詢頭(Query Heads)分組,并在每組中共享一個鍵頭(Key Head)和一個值頭(Value Head)。表達能力與推理速度:GQA既保留了多頭注意力的一定表達能力,又通過減少內存訪問壓力來加速推理速度。

88f5d97e-9125-11ee-939d-92fbcf53809c.jpg

MHA, GQA, MQA 性能比較

2.2 窗口優化

890f5b60-9125-11ee-939d-92fbcf53809c.png

891f68b6-9125-11ee-939d-92fbcf53809c.jpg

3)箭型 attention 窗口,在LM-Infinit中就已經被提出了,其基本原理和StreamingLLM是一致的。

89312f42-9125-11ee-939d-92fbcf53809c.jpg

2.3 量化與稀疏

該類方法是基于壓縮的思想,通過量化與稀疏壓縮 KV cache 的 顯存消耗。

當前主流推理框架都在逐步支持 KV cache 量化,一個典型的案例是lmdeploy,下圖展示了其在TurboMind框架下 KV INT8 的支持情況。

893c6b6e-9125-11ee-939d-92fbcf53809c.jpg

lmdeploy 的推理特性

稀疏的方法也比較簡單,其做法無外乎以下幾種方式:

894638b0-9125-11ee-939d-92fbcf53809c.jpg

這里最值得一提的是H2O。簡單來說就是通過動態的評價方式來判斷需要保留和廢棄的KV值,其評估的算法如下所示:

895912a0-9125-11ee-939d-92fbcf53809c.jpg

結果顯示,在 KV cache 稀疏到只有原來的 20% 時仍然可以保持很高的精度。

89688564-9125-11ee-939d-92fbcf53809c.jpg

2.4 存儲與計算優化

該方法的典型代表即vLLM的 PagedAttention,簡單來說就是允許在非連續的內存空間中存儲連續的 K 和 V。詳情可參考筆者之前的文章,在此不予贅述

FlashDecoding 是在 FlashAttention 的基礎上針對 inference 的優化主要分為三步:

長文本下將KV分成更小且方便并行的chunk

對每個chunk的KV,Q和他們進行之前一樣的FlashAttention獲取這個chunk的結果

對每個chunk的結果進行reduce

8977e086-9125-11ee-939d-92fbcf53809c.gif

三、StreamingLLM:簡潔高效的“無限長度”

StreamingLLM 的基本思想同樣是來源于上述的窗口思想,其最大的創新在于提出了識別并保存模型固有的「注意力池」(attention sinks)錨定其推理的初始 token。下面將詳細討論其工作的原理。

3.1 精度是如何保證的?

核心的發現:Lost in the Middle。

多個研究都發現,self-attention 的注意力比較集中于頭部和尾部,對文本中段的注意力相對較弱,如下圖所示:

89ac0e4c-9125-11ee-939d-92fbcf53809c.jpg

繪制出 self-attention 的熱力圖也能看到這一點,由此當文本長度超過額定長度時,頭部的 token 就會被遺棄掉,這就會在 softmax 階段產生很大的問題。

89b64c0e-9125-11ee-939d-92fbcf53809c.jpg

89ce455c-9125-11ee-939d-92fbcf53809c.png

89d52ad4-9125-11ee-939d-92fbcf53809c.png

3.2 “無限長度”是如何做到的?

該問實際上可以換種表述為:如何在文本長度不斷增加的情況下,保證GPU顯存不會溢出。由于該方案主要應用于多輪對話的場景,那么有必要回顧一下當前多輪對話生成的主流做法,概括起來就以下幾點:

將用戶輸入與模型輸出拼接,中間做必要分割;

多個輪次之間倒序排列,并拼接;

如果前邊所有輪次長度之和超過最大長度,則截斷到最大長度;

上述過程可以用代碼描述如下:

  history = ["
[|Human|]{}
[|AI|]{}".format(x[0], x[1]) for x in history]
  history.append("
[|Human|]{}
[|AI|]".format(text))
  history_text = ""
  flag = False
  for x in history[::-1]:
    if tokenizer(prompt + history_text + x, return_tensors="pt")["input_ids"].size(-1) <= max_length:
 ? ? ? ? ? ?history_text = x + history_text
 ? ? ? ? ? ?flag = True
 ? ? ? ?else:
 ? ? ? ? ? ?break
 ? ?if flag:
 ? ? ? ?inputs = tokenizer(prompt + history_text, return_tensors="pt")
 ? ? ? ?input_ids = inputs["input_ids"][:, -max_length:].to(device)
 ? ? ? ?torch.cuda.empty_cache()
 ? ? ? ?return input_ids, text
 ? ?else:
 ? ? ? ?return None

實際上這就是典型的滑動窗口的做法,滑窗?的存在保證了 GPU 的顯存不會溢出,但是由于上節的討論,會存在精度損失。

89f51d1c-9125-11ee-939d-92fbcf53809c.jpg

8a000696-9125-11ee-939d-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4740

    瀏覽量

    128949
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15373
  • LLM
    LLM
    +關注

    關注

    0

    文章

    288

    瀏覽量

    335

原文標題:漫談 KV Cache 優化方法,深度理解 StreamingLLM

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    內存分配及Cache優化

    C6000的芯片支持庫CSL中的CACHE-setL2Mode函數,將L2設置為198KB的SRAM和64KB的Cache模式。并根據H.264算法本身的結構,采取以下方法對存儲器進行優化
    發表于 08-10 14:54

    如何理解C6678中關于cache的描述?

    在TMS320C6678中,有這樣對cache的描述:“L1D memory cannot be cached within L1D cache, L1P cache, or L2 cache
    發表于 06-21 16:07

    請教關于EDMA和cache優化的疑惑

    hi,everyone:經常看到網上說,EDMA算法優化,在片上L2SRAM 中開辟內存,將片外數據從DDR或SDRAM 利用EDMA搬運到L2SRAM中。但是, 我有兩點疑惑:1.我覺得這種方法
    發表于 07-27 09:38

    使用CACHE_disableCaching函數禁止cache沒起作用

    CACHE_getMemRegionInfo (129, &pcx, &pfx); 讀取pcx的值 仍然是1,所以沒起作用。懷疑是當前模式是user mode,而修改MAR寄存器需要
    發表于 12-28 11:12

    Cache為什么還要分I-Cache,D-Cache,L2 Cache作用是什么?

    Cache為什么還要分I-Cache,D-Cache,L2 Cache作用是什么?
    發表于 10-25 06:38

    基于修正LRU的壓縮Cache替換策略

    優化壓縮cache的替換策略為目標,提出一種優化的基于修正LRU的壓縮cache替換策略MLRU-C。MLRU-C策略能利用壓縮cache
    發表于 04-15 09:51 ?36次下載

    Cache中Tag電路的設計

    摘要:在SoC系統中,片上緩存(Cache)的采用是解決片上處理器和片外存儲器之間速度差異的重要方法Cache中用來存儲標記位并判斷Cache是否命中的Tag電路的設計將會影響到整個
    發表于 05-08 09:26 ?11次下載

    降低Cache失效率的方法[1]

    降低Cache失效率的方法[1]  學習目標:     理解失效的三種類型(3C);
    發表于 04-13 16:32 ?4257次閱讀

    降低Cache失效率的方法[2]

    降低Cache失效率的方法[2] 表4.7列出了在這兩種極端情況之間的各種塊大小和各種 Cache 容量的平均訪存時間。速度最快的情況: Cache 容量為1KB、4KB、1
    發表于 04-13 16:33 ?4895次閱讀

    一種有效的Cache優化替換策略

    該問題,一種有效的解決方法優化Cache替換策略,減少Cache中臟塊被替換出的數量。現有研究主要通過在插入和訪問命中時給臟塊設定較高的保護優先級來達到給臟塊額外保護的目的,但是在降
    發表于 11-27 15:16 ?1次下載
    一種有效的<b class='flag-5'>Cache</b><b class='flag-5'>優化</b>替換策略

    Page Cache是什么 一文帶你深入理解Linux的Page Cache

    是什么? 為了理解 Page Cache,我們不妨先看一下 Linux 的文件 I/O 系統,如下圖所示: Figure1. Linux 文件 I/O 系統 上圖中,紅色部分為 Page Cache。可見 Page
    的頭像 發表于 10-20 14:12 ?5943次閱讀
    Page <b class='flag-5'>Cache</b>是什么 一文帶你深入<b class='flag-5'>理解</b>Linux的Page <b class='flag-5'>Cache</b>

    什么是 Cache? Cache讀寫原理

    由于寫入數據和讀取指令分別通過 D-Cache 和 I-Cache,所以需要同步 D-Cache 和 I-Cache,即復制后需要先將 D-Cach
    發表于 12-06 09:55 ?2592次閱讀

    Cache與性能優化精彩問答38條

    占用非常大的面積,大概在一半以上,而且一個好的 Cache 的設計復雜度非常高,可能比較 CPU 的 Pipeline 還要復雜。這里要考慮成本,設計復雜度,或者其他方面的考慮。你知道 L1
    的頭像 發表于 01-11 09:34 ?1354次閱讀

    深入理解Cache工作原理

    按照數據關系劃分:Inclusive/exclusive Cache: 下級Cache包含上級的數據叫inclusive Cache。不包含叫exclusive Cache。舉個例子,
    的頭像 發表于 05-30 16:02 ?808次閱讀
    深入<b class='flag-5'>理解</b><b class='flag-5'>Cache</b>工作原理

    Cache分類與替換算法

    根據不同的分類標準可以按以下3種方法Cache進行分類。 ?1)數據cache和指令cache ?● 指令cache:指令預取時使用的
    的頭像 發表于 10-31 11:26 ?977次閱讀
    <b class='flag-5'>Cache</b>分類與替換算法
    主站蜘蛛池模板: 在线女同免费观看网站| 午夜免费伦费影视在线观看| 真人午夜a一级毛片| 一区卡二区卡三区卡视频| 婷婷开心六月久久综合丁香| 亚洲黄色三级视频| 久久99久久精品免费思思6| 手机看片自拍自拍自拍| 热re99久久国产精品| 午夜剧场黄| 国产大乳喷奶水在线看| 免费人成年短视频在线观看免费网站| 99成人在线观看| 黄色国产在线视频| 日韩色爱| 色婷婷六月桃花综合影院| 能可以直接看的av网址| 看毛片的网站| 午夜性a一级毛片| 视频在线观看一区二区三区| 欧美作爱福利免费观看视频| 手机看片三级| 成人aaa| 色噜噜在线视频| 国产一区二区影院| 8天堂资源在线| 上课被同桌摸下面做羞羞| 午夜影院免费观看视频| 免费污视频在线| 国产人成精品香港三级古代| 欧美交片| 四虎影院在线观看网站| 一本到视频在线| 网站啪啪| 欧美综合精品一区二区三区| 欧美女同网站| 性视频软件| 五月天婷婷久久| 中国一级做a爰片久久毛片| 欧美性色黄在线视| 狠狠摸狠狠操|