在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

chatGPT的175Billion個(gè)參數(shù)是哪兒來(lái)的

處理器與AI芯片 ? 來(lái)源:處理器與AI芯片 ? 2023-11-01 16:57 ? 次閱讀

最近大語(yǔ)言模型模型LLM很火,大家總是說(shuō)chatgpt的175Billion參數(shù)。做算法的人更關(guān)心網(wǎng)絡(luò)的結(jié)構(gòu),而我這種做硬件的人一直很好奇這個(gè)參數(shù)是怎么計(jì)算的。

最近看到了一篇文章,計(jì)算了參數(shù)的個(gè)數(shù)并且和chatgpt論文里的參數(shù)進(jìn)行了比較,計(jì)算的還是比較準(zhǔn)確的,我來(lái)總結(jié)一下。

1.Chatgpt背景

Chatgpt(chat generative pre-trained transformer)也是基于google最初的transformer模型,雖然LLM功能很強(qiáng)大,但是理解起來(lái)比f(wàn)asterRCNN和LSTM好很多。

Transformer結(jié)構(gòu)

wKgZomVCE0-AKWVBAAJ8--DkelI175.jpg

Chatgpt結(jié)構(gòu)

不同于從input到output可以進(jìn)行翻譯工作的transformer結(jié)構(gòu),ChatGPT進(jìn)行對(duì)話,只需要右側(cè)的decoder部分就可以。

wKgaomVCE1-Af0DmAADtfVtIckE850.jpg

2.一張立體圖:

wKgZomVCE3KAOX4aAAcz4SEX8pU616.jpg

整體的Bert 結(jié)構(gòu)

看了很多解釋圖,上面的圖是看過(guò)的最好的,流程就是

1)inputembedding 分別和key,value,query的矩陣做乘法linear projection,得到的結(jié)果進(jìn)行attention

2)將多個(gè)attention的結(jié)果進(jìn)行concat拼接,得到的結(jié)果進(jìn)行再次進(jìn)行矩陣乘法,linearprojection

3)將得到的結(jié)果輸入feedforwardnetwork,兩層的lineartransform之后,輸出結(jié)果

4)如果有n_layer個(gè)layer,那么就重復(fù)2)和3)n_layer次

3.具體的參數(shù)個(gè)數(shù)計(jì)算

先解釋一下參數(shù):

n_head : attention 中head的個(gè)數(shù)

d_model: 中間bottlenecklayer的向量的維度

n_vocalulary: 字典的維度

n_context: 上下文的長(zhǎng)度

n_layer:網(wǎng)絡(luò)的層數(shù)

1)Inputembedding

wKgZomVCE4iARZ3-AABOebKU6Q0469.jpg

對(duì)應(yīng)UWe將U的(n_context,n_vocalulary) 維轉(zhuǎn)為UWe(n_context, d_model)維,其矩陣大小為(n_vocabulary,d_model) , 參數(shù)大小即為n_vocabulary* d_model。 ??

此外,??Wp對(duì)應(yīng)(n_context,d_model)。 因此此處的參數(shù)個(gè)數(shù)為: n_vocabulary*d_model+ n_context * d_model

2)Attention& MultiHead

wKgZomVCE6-ARj1wAABHqRiRDZ8304.jpg

a. WiQ, WiK,WiV都是相同的大小投影矩陣,每個(gè)都是d_model*d_head維度,這里的d_head就對(duì)應(yīng)上面公式里面的de, ,dk,dv,ChatGPT中他們都是同樣的大小;

b.因此attention部分的計(jì)算量就是3*d_model*d_head,因?yàn)橛腥齻€(gè)矩陣WiQ,WiK, WiV;

c.如果有MultiHead,如果head的個(gè)數(shù)為n_head,那么即為W矩陣的總參數(shù)3*d_model*d_head*n_head

d. concat的結(jié)果的維度為(n_context,n_head*d_head),經(jīng)過(guò)矩陣WO計(jì)算后維度變?yōu)?n_context,d_head)維,因此WO的維度為(n_head*d_head,d_head) 對(duì)c)和d)的參數(shù)求和,此時(shí)參數(shù)個(gè)數(shù)為 4*d_model*d_head*n_head

3)feedforward

wKgZomVCE9eAAXW9AABmvF0--fo398.jpg

在chatgpt中,feedforward內(nèi)部由兩層lineartransformer組成,并且d_ff為d_model的4倍。 ???W1??的參數(shù)個(gè)數(shù)為(d_model,d_ff), b??1??的參數(shù)個(gè)數(shù)為d_ff,W2的為(d_ff,d_model),b2????的參數(shù)個(gè)數(shù)為d_model,而d_model又是d_ff的四倍,因此: 2*d_model*d_ff+d_model+d_ff 即 8*d_model2+ 5* d_model 4)將2)和3)重復(fù)n_layer次 n_layer * (4*d_model*d_head*n_head+ 8*d_model2 + 5* d_model)

總體的參數(shù)計(jì)算:1)+ 4):

n?_vocabulary*d_model-> emb??edding atrix

+n_context * d_model??-> position matrix

+ n_layer *? ????-> layer 重復(fù)N次

// multi headattention

(4 * d_model * d_head * n_head ->???

??// feedforward network

??+ 8 * d_model2+ 5* d_mo??del??)

驗(yàn)證一下:

如果按照chatGPT論文中設(shè)置的參數(shù):

n_vocabulary = 50257

d_model = 12288

n_context = 2048

n_layer= 96

d_head= 128

n_head= 96

1)word_embeding +position

50257 * 12288 + 2048 * 12288 = 642723840

2)Attention& MultiHead

單層:4 * 12288 * 128 * 96 = 603979776??

3)feedforward

8 * 12288 * 12288 + 5 * 12288= 1208020992

4)2)和3)重復(fù)n_layer次

N_layer = 96 層96*(603979776+1208020992) = 173952073728

1)+2) = 174594797568 也就是所說(shuō)的175Billion個(gè)參數(shù)。

這個(gè)方法估計(jì)出的參數(shù)和論文中參數(shù)的對(duì)比:

92021d4c-7894-11ee-939d-92fbcf53809c.png







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LSTM
    +關(guān)注

    關(guān)注

    0

    文章

    59

    瀏覽量

    3751
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7671
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    288

    瀏覽量

    335

原文標(biāo)題:chatGPT的175Billion個(gè)參數(shù)是哪兒來(lái)的

文章出處:【微信號(hào):處理器與AI芯片,微信公眾號(hào):處理器與AI芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    : LED輸出,我們要用它來(lái)展示ChatGPT4的“高見(jiàn)”。 ChatGPT4_IP_Core chatgpt4_core(...): 假設(shè)我們有一
    發(fā)表于 02-14 21:58

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開(kāi)發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    ChatGPT對(duì)話語(yǔ)音識(shí)別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    迭代,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。2020年發(fā)布的GPT-3,其訓(xùn)練參數(shù)量已經(jīng)達(dá)到了驚人的1750億個(gè),“大量的數(shù)據(jù)被反復(fù)‘喂’給ChatGPT。” 而且,ChatGPT的訓(xùn)練成本支出巨
    發(fā)表于 03-03 14:28

    【米爾MYD-JX8MMA7開(kāi)發(fā)板-ARM+FPGA架構(gòu)試用體驗(yàn)】4.使用ChatGPT來(lái)助力測(cè)試GPU

    領(lǐng)域的多種應(yīng)用場(chǎng)景比較適用。本次將測(cè)試該開(kāi)發(fā)板的GPU圖形圖像處理能力,并在ChatGPT幫助下使用OpenGL E2.0 開(kāi)發(fā)一個(gè)簡(jiǎn)單的3D模型實(shí)時(shí)渲染的應(yīng)用,及使用ChatGPT來(lái)
    發(fā)表于 04-10 02:07

    ChatGPT系統(tǒng)開(kāi)發(fā)AI人功智能方案

    ChatGPT是一個(gè)由OpenAI開(kāi)發(fā)的人工智能語(yǔ)言模型,可以實(shí)現(xiàn)自然語(yǔ)言處理、對(duì)話生成等功能。要開(kāi)發(fā)一個(gè)類似ChatGPT的人工智能系統(tǒng)軟件,可以遵循以下步驟:確定應(yīng)用場(chǎng)景:確定人
    發(fā)表于 05-18 10:16

    J175 P溝道開(kāi)關(guān)

    電子發(fā)燒友網(wǎng)為你提供()J175相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有J175的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料,J175真值表,J175
    發(fā)表于 04-18 20:41

    HMC175 S參數(shù)

    HMC175 S參數(shù)
    發(fā)表于 03-23 13:53 ?1次下載
    HMC<b class='flag-5'>175</b> S<b class='flag-5'>參數(shù)</b>

    ChatGPT入門指南

    是基于聊天的生成預(yù)訓(xùn)練transformer模型的縮寫(xiě),是一個(gè)強(qiáng)大的工具,可以以各種方式使用,以提高您在許多領(lǐng)域的生產(chǎn)力。 ChatGPT是一種人工智能(AI)技術(shù),被稱為自然語(yǔ)言處理(NLP)模型   由人工智能研發(fā)公司OpenAI創(chuàng)建。它使用機(jī)器學(xué)習(xí)算法
    發(fā)表于 02-10 11:19 ?7次下載
    <b class='flag-5'>ChatGPT</b>入門指南

    chatgpt是什么

    chatgpt是什么 ChatGPT,美國(guó)OpenAI 。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過(guò)學(xué)習(xí)和理解人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真
    發(fā)表于 02-10 14:05 ?4w次閱讀

    chatgpt怎么用

    使用了一種叫做Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),這是一種用于處理序列數(shù)據(jù)的模型,能夠在輸入序列中捕捉長(zhǎng)期依賴性。它還使用了大量的語(yǔ)料庫(kù)來(lái)訓(xùn)練模型,這些語(yǔ)料庫(kù)包含了真實(shí)世界中的對(duì)話,以便模型能夠更好地理解人類語(yǔ)言。 chatgpt怎么用? 1、注冊(cè)或登錄OpenAI賬戶
    發(fā)表于 02-10 14:22 ?5.8w次閱讀

    從零開(kāi)始談ChatGPT

      那如何才能得到一個(gè)ChatGPT呢?   首先我們需要一個(gè)具備各種能力(潛力)的LLM,所以它要足夠大,訓(xùn)練的足夠好。OpenAI 大概率也是為此重新訓(xùn)練了一個(gè)GPT-3 模
    發(fā)表于 02-15 10:20 ?0次下載
    從零開(kāi)始談<b class='flag-5'>ChatGPT</b>

    ChatGPT了的七個(gè)開(kāi)源項(xiàng)目

    就推出了很多。估計(jì),現(xiàn)在還有不少同學(xué)苦于不知道該如何體驗(yàn)chatGPT。   chatGPT火了,圍繞chatGPT盡心二次擴(kuò)展的開(kāi)源項(xiàng)目最近也涌現(xiàn)出很多,今天就來(lái)給大家介紹幾個(gè)最近發(fā)現(xiàn)的不錯(cuò)的開(kāi)源項(xiàng)目!   這是一
    發(fā)表于 02-15 09:26 ?3次下載
    <b class='flag-5'>ChatGPT</b>了的七<b class='flag-5'>個(gè)</b>開(kāi)源項(xiàng)目

    個(gè)令人驚艷的ChatGPT項(xiàng)目,開(kāi)源了!

    而Visual ChatGPT這個(gè)項(xiàng)目則可以把ChatGPT和一系列視覺(jué)基礎(chǔ)模型(VFM,Visual Foundation Model)給聯(lián)系起來(lái),以便實(shí)現(xiàn)在ChatGPT聊天的過(guò)程中來(lái)
    的頭像 發(fā)表于 03-31 11:00 ?2258次閱讀
    主站蜘蛛池模板: 老师办公室高h文小说| 性人久久久久| 手机在线看片你懂得| 黄视频在线播放| 人人做人人爽人人爱| 亚洲综合图片人成综合网| 涩涩涩丁香色婷五月网视色| 国产农村妇女毛片精品久久久| 亚洲欧美日韩在线观看你懂的| 美女骚网站| 你懂的手机在线视频| 男人j进入女人j视频大全| 欧美日韩一区二区三区视频| 亚洲va国产日韩欧美精品色婷婷| 免费啪视频在线观看| 四虎永久在线精品视频免费观看| 国产精品久久久久久久久| 操片| 五月天婷婷色| 99免费观看视频| 国产91啪| 欧美综合久久| 日本高清视频一区| 国产男女怕怕怕免费视频| 久久精品视频国产| 国产在线观看午夜不卡| 亚洲图片综合区另类图片| 国产三级在线观看免费| 性欧美另类| 如色网| 国产成人精品怡红院| 色天天综合网| 怡红院国产| 波多野结衣在线观看一区二区 | 米奇精品一区二区三区| 中韩日欧美电影免费看| 国产精品特黄毛片| h在线视频| 毛片在线播| 222aaa免费国产在线观看| 日韩欧美色|