在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGLM2-6B解析與TPU部署

jf_pJlTbmA9 ? 來源:jf_pJlTbmA9 ? 作者:jf_pJlTbmA9 ? 2023-08-18 11:28 ? 次閱讀

概述#

算能BM1684X芯片已經實現ChatGLM2-6B的C++代碼部署,代碼實現鏈接:https://github.com/sophgo/ChatGLM2-TPU。

本文總結部署該模型過程中的一些技術點。首先是ChatGLM2-6B的整體運行流程,然后介紹如何將該動態網路轉換成靜態網絡形式,接著介紹如何將該模型導出成ONNX。

最后如何將ONNX使用TPU-MLIR編譯器實現網絡的編譯以及用C++代碼編寫應用程序,可以直接看源碼就可以理解,這里不做介紹。

ChatGLM2-6b運行流程#



wKgaomTeyYuAGAEHAAOdqNVoTSg583.png

如圖該網絡基本上可以分為5個階段:

將句子通過分詞器(使用google的sentencepiece)轉換成tokens,如圖中的<1x17 xi32>的數據。注意tokens里面64790, 64792是起始符號。

通過WordEmbedding將tokens轉換成詞向量,得到的結果是<1x17x4096 xf32>的數據。

通過Tranformer進行神經網絡推理,推理結果是<1x17x4096 xf32>,答案在最后的詞向量上,所以做一個額外的slice操作,得到<1x1x4096 xf32>。這里Transformer網絡是由28個Block組成,每個Block的核心是一個Attention運算,并輸出kv cache給下一輪Transform做為輸入。

經過LmHead操作生成<1x1 xi32>的結果,也就是輸出的Token。LmHead的組成如圖所示。

Token經過分詞器轉成詞語,且傳遞給下一輪推理,進入第一階段。直到token == EOS_ID結束。

轉成靜態網絡#

ChatGLM2-6B從前面的描述中,可以看到有兩處是動態的,一是因句子的長短不同,Transformer的輸入Shape有所有不同;二是每一輪Transformer生成的kv cache會逐步增長。為了方便部署,根據網絡特點轉換成靜態網絡。轉換后的運行流程如下:

wKgZomTeyY6AFQEgAAW1_ICPg_Q001.png

從圖中可以看到句子不論長短,轉換后的tokens始終是<1x512x i32>,kv cache的數據也始終是<512x1x2x128x f32>。

這里介紹最關鍵的幾點:

將原始tokens輸入尾部補0,從<1x17x i32>轉換成<1x512x i32>。

將position_ids從GlmBlock中提取出來,并固定長度為<1x512x i32>,也是尾部補0,本例中的數值為[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,0,0,0,0,...0],用于位置編碼。因為在原始網絡中這部分是變長,提取出來后就可以做成定長。

將attention_mask從GlmBlock中提取出來,并固定長度為<1x512x512x f32>,注意無效部分全部補1,因為它之后會有masked_fill操作將mask為1的部分全部配置為-inf。然后經過Softmax使超出部分全部清0,保留有效部分,從而保證最終結果與原始結果一致。如下圖,為說明問題,Attention做了簡化。

wKgaomTeyZKAcEiQAANk81R4E_M592.png

第一輪Transformer后,kv_chache有效部分是[0:17],我們將該部分移到末尾[512-17:],并頭部清0。因為kv cache的累加發生在尾部。從第二輪開始累加后做Slice操作去掉頭部1個單位,取[1:],這樣就保證了kv cache始終保持在512。同時attention mask也要是從尾部實際token len長度的0,頭部全部置1。

導出ONNX#

將該網絡分為4塊:WorkEmbedding,GlmBlock,GlmBlockCache,LmHead。這里分別介紹這四塊是如何導出的。

導出前,先要指定python路徑,如下:

1
export PYTHONPATH=/workspace/chatglm2-6b:$PYTHONPATH

需要先加載原始ChatGLM2-6B,如下代碼:

1
2
3
4
5
6
7
8
9
10
11
CHATGLM2_PATH = "/workspace/chatglm2-6b"

origin_model = AutoModel.from_pretrained(CHATGLM2_PATH,
                                         trust_remote_code=True).float()
origin_model.eval()
transformer = origin_model.transformer
MAX_LEN = transformer.seq_length
for param in origin_model.parameters():
    param.requires_grad = False
num_layers = transformer.encoder.num_layers
layers = transformer.encoder.layers

WorkEmbedding#

直接使用原模型中的word_embeddings,構建成獨立網絡,導出即可

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
class Embedding(torch.nn.Module):

    def __init__(self):
        super().__init__()

    def forward(self, input_ids):
        return transformer.embedding.word_embeddings(input_ids)

def convert_embedding():
    model = Embedding()
    torch.onnx.export(model, (torch.tensor([0, 1, 2, 3])),
                      f'./tmp/embedding.onnx',
                      verbose=False,
                      input_names=['input_ids'],
                      output_names=['input_embed'],
                      dynamic_axes={"input_ids": {0: "length"}},
                      do_constant_folding=True,
                      opset_version=15)

GlmBlock#

需要將transformer.rotary_pos_emb和transformer.encoder.layers組合構建獨立網路,導出。因為有28個block,所以需要導出28個ONNX模型。這里的position_ids和attention_mask作為外部輸入,前面有介紹。其實這28個Block是可以組合成一個模型,但是這樣導致onnx權重過大(F16約12GB),導出麻煩,部署也麻煩,所以單個導出。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
class GlmBlock(torch.nn.Module):

    def __init__(self, layer_id):
        super().__init__()
        self.layer = layers[layer_id]

    def forward(self, hidden_states, position_ids, attention_mask):
        rotary_pos_emb = transformer.rotary_pos_emb(MAX_LEN)[position_ids]
        rotary_pos_emb = rotary_pos_emb.transpose(0, 1).contiguous()
        hidden_states, past_kv = self.layer(hidden_states, attention_mask,
                                            rotary_pos_emb=rotary_pos_emb)
        return hidden_states, past_kv

def convert_glm_block(layer_id):
    model = GlmBlock(layer_id)
    torch.onnx.export(
        model, (hidden_states, position_ids, attention_mask),
        f'./tmp/glm_block_{layer_id}.onnx',
        verbose=False,
        input_names=['input_states', 'position_ids', 'attention_mask'],
        output_names=['hidden_states', 'past_k', 'past_v'],
        do_constant_folding=True,
        opset_version=15)

GlmBlockCache#

與`GlmBlock是類似的,但是需要額外的kv cache參數。注意這里 最后會把頭部1個單位去除掉。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
class GlmBlockCache(torch.nn.Module):
    def __init__(self, layer_id):
        super().__init__()
        self.layer = layers[layer_id]

    def forward(self, hidden_states, position_ids, attention_mask, past_k, past_v):
        rotary_pos_emb = transformer.rotary_pos_emb(MAX_LEN)[position_ids]
        rotary_pos_emb = rotary_pos_emb.transpose(0, 1).contiguous()
        hidden_states, past_kv = self.layer(hidden_states, attention_mask,
                                            kv_cache=(past_k, past_v),
                                            rotary_pos_emb=rotary_pos_emb)
        past_k, past_v = past_kv
        return hidden_states, past_k[1:], past_v[1:]

def convert_glm_block_cache(layer_id):
    model = GlmBlockCache(layer_id)
    torch.onnx.export(
        model, (hidden_states, position_ids, attention_mask, past_k, past_v),
        f'./tmp/glm_block_cache_{layer_id}.onnx',
        verbose=False,
        input_names=['input_states', 'position_ids', 'attention_mask', 'history_k', 'history_v'],
        output_names=['hidden_states', 'past_k', 'past_v'],
        do_constant_folding=True,
        opset_version=15)

LmHead#

這里取m_logits后使用topk,其實也是可以用argmax,看芯片實現哪一種效率高。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
class LmHead(torch.nn.Module):
    def __init__(self):
        super().__init__()
    def forward(self, hidden_states):
        hidden_states = transformer.encoder.final_layernorm(hidden_states)
        m_logits = transformer.output_layer(hidden_states)
        _, token = torch.topk(m_logits, 1)
        return token
def convert_lm_head():
    model = LmHead()
    input = torch.randn(1, 4096)
    torch.onnx.export(model, (input), f'./tmp/lm_head.onnx', verbose=False,
                      input_names=['hidden_states'],
                      output_names=['token'],
                      do_constant_folding=True,
                      opset_version=15)

部署#

上述轉完ONNX模型后都已經是靜態網絡,通過TPU-MLIR,可以很容易的轉換成F16的模型。但是特別要注意的是RmsNorm需要用F32。之后就可以按照執行邏輯編寫C++代碼。演示效果如下:

wKgZomTeyZmAfYNvAAyggAMVdCw548.png

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    455

    文章

    50816

    瀏覽量

    423627
  • 源碼
    +關注

    關注

    8

    文章

    641

    瀏覽量

    29213
  • C++
    C++
    +關注

    關注

    22

    文章

    2108

    瀏覽量

    73651
  • TPU
    TPU
    +關注

    關注

    0

    文章

    141

    瀏覽量

    20728
收藏 人收藏

    評論

    相關推薦

    【算能RADXA微服務器試用體驗】Radxa Fogwise 1684X Mini 規格

    ChatGLM2-6B、AIGC、Llama2、SAM、Whisper等超大參數模型 還有一份詳細的英文的規格表: 另外,算能RADXA微服務器服務器,還是大學生集成電路創新創業大賽之# 第八屆集創賽杯賽題目
    發表于 02-28 11:21

    CORAL-EDGE-TPU:珊瑚開發板TPU

    :1 GB LPDDR4閃存:8 GB eMMC無線:Wi-Fi 2x2 MIMO(802.11b / g / n / ac 2.4 / 5GHz)藍牙4.1尺寸:48mm x 40mm x 5mm
    發表于 05-29 10:43

    TPU透明副牌.TPU副牌料.TPU抽粒廠.TPU塑膠副牌.TPU再生料.TPU低溫料

    ,透明.白色.黑色. 改性料. 2.TPU擠出.留延.氣動管TPU料、管材TPU料、條TPU料、封邊條TPU料、裝飾條
    發表于 11-21 17:21

    供應TPU抽粒工廠.TPU再生工廠.TPU聚醚料.TPU聚酯料.TPU副牌透明.TPU副牌.TPU中低溫料

    清源塑膠經營.進口.國內.供應TPU原料.副牌TPU塑膠.TPU透明副牌. 再生粒子.白色.黑色.透明. 注塑料.擠出料. 壓延等等..聚醚. 脂肪料. 聚酯料.硬度70A--98A. 高硬度
    發表于 11-21 17:47

    CoolPi CM5運行ChatGLM-MNN大語言模型

    ChatGLM-MNN project git clone https://github.com/wangzhaode/ChatGLM-MNN.git Compile MNN library
    發表于 04-29 09:39

    清華系千億基座對話模型ChatGLM開啟內測

    ChatGLM-6B 使用了和 ChatGLM 相同的技術,針對中文問答和對話進行了優化。經過約 1T 標識符的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億參數的 ChatGLM-6B 雖然規模不
    的頭像 發表于 03-17 13:47 ?2109次閱讀

    ChatGLM-6B的局限和不足

    基于ChatGLM-6B 部署本地私有化ChatGPT 一、開源模型 1、ChatGLM-6B介紹 清華大學知識工程 (KEG) 實驗室和智譜AI公司與于2023年共同訓練的語言模型
    的頭像 發表于 06-25 11:50 ?5465次閱讀
    <b class='flag-5'>ChatGLM-6B</b>的局限和不足

    ChatGLM2-6B:性能大幅提升,8-32k上下文,推理提速42%,在中文榜單位列榜首

    在主要評估LLM模型中文能力的 C-Eval 榜單中,截至6月25日 ChatGLM2 模型以 71.1 的分數位居 Rank 0 ,ChatGLM2-6B 模型以 51.7 的分數位居 Rank
    的頭像 發表于 06-26 14:30 ?991次閱讀
    <b class='flag-5'>ChatGLM2-6B</b>:性能大幅提升,8-32k上下文,推理提速42%,在中文榜單位列榜首

    下載量超300w的ChatGLM-6B再升級:8-32k上下文,推理提速42%

    ,允許更多輪次的對話。但當前版本的 ChatGLM2-6B 對單輪超長文檔的理解能力有限,我們會在后續迭代升級中著重進行優化。
    的頭像 發表于 06-29 16:15 ?1358次閱讀
    下載量超300w的<b class='flag-5'>ChatGLM-6B</b>再升級:8-32k上下文,推理提速42%

    適用于各種NLP任務的開源LLM的finetune教程~

    ChatGLM2-6b是清華開源的小尺寸LLM,只需要一塊普通的顯卡(32G較穩妥)即可推理和微調,是目前社區非常活躍的一個開源LLM。
    的頭像 發表于 07-24 09:04 ?1720次閱讀
    適用于各種NLP任務的開源LLM的finetune教程~

    基于ChatGLM2和OpenVINO?打造中文聊天助手

    ChatGLM 是由清華大學團隊開發的是一個開源的、支持中英雙語的類 ChatGPT 大語言模型,它能生成相當符合人類偏好的回答, ChatGLM2 是開源中英雙語對話模型 ChatGLM 的第二代版本,在保留了初代模型對話流
    的頭像 發表于 08-24 17:13 ?1311次閱讀
    基于<b class='flag-5'>ChatGLM2</b>和OpenVINO?打造中文聊天助手

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商業落地

    |探索ChatGLM2-6B模型與TPU部署》。為了進一步提升模型的推理效率與降低存儲空間,我們對模型進行了INT8量化部署,整體性能提升70%以上,模型大小降低到
    的頭像 發表于 10-10 10:18 ?3738次閱讀
    探索<b class='flag-5'>ChatGLM2</b>在算能BM1684X上INT8量化<b class='flag-5'>部署</b>,加速大模型商業落地

    ChatGLM3-6B在CPU上的INT4量化和部署

    ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯合發布的新一代對話預訓練模型。ChatGLM3-6BChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業使用。
    的頭像 發表于 01-05 09:36 ?920次閱讀
    <b class='flag-5'>ChatGLM3-6B</b>在CPU上的INT4量化和<b class='flag-5'>部署</b>

    三步完成在英特爾獨立顯卡上量化和部署ChatGLM3-6B模型

    ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯合發布的新一代對話預訓練模型。ChatGLM3-6BChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業使用。
    的頭像 發表于 01-11 18:04 ?1634次閱讀
    三步完成在英特爾獨立顯卡上量化和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM3-6B</b>模型

    chatglm2-6b在P40上做LORA微調

    背景: 目前,大模型的技術應用已經遍地開花。最快的應用方式無非是利用自有垂直領域的數據進行模型微調。chatglm2-6b在國內開源的大模型上,效果比較突出。本文章分享的內容是用
    的頭像 發表于 08-13 17:12 ?486次閱讀
    <b class='flag-5'>chatglm2-6b</b>在P40上做LORA微調
    主站蜘蛛池模板: 日本色黄视频| 日韩免费精品视频| 亚洲伊人成综合成人网| avt天堂网| 在线视频永久在线视频| 国产手机在线观看视频| 国产精品成人一区二区三区| 婷婷色香五月激情综合2020| 一区中文字幕| 中文字幕一区二区三区乱码aⅴ| 97精品伊人久久久大香线焦| 免费看黄的视频网站| 亚洲天堂2013| 日韩欧美国产电影| 4tube高清性欧美| 美女自熨出白浆视频在线播放| 99色视频在线观看| 午夜精品免费| 九九碰| 最近最新免费视频| 亚洲jizzjizz| 免费黄色在线视频| 成 人色 网 站999| 人人干人人上| 中文字幕一区在线观看| 一个色亚洲| 国产精品久久国产三级国不卡顿| 激情婷婷综合| 午夜特片网| 亚洲成成品网站有线| 精品国产自在现线看久久| 五月天福利视频| 玖玖在线精品| 亚洲午夜网未来影院| 国产精品无码永久免费888| 亚洲精品美女在线观看| 美女一级一级毛片| 五月激情综合网| 免费看的黄视频| 国产女人视频| 国产精品午夜久久|