在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么樣的模型更適合zero-shot?

深度學習自然語言處理 ? 來源:無數據不智能 ? 2023-05-12 15:40 ? 次閱讀

什么樣的模型更適合zero-shot?

對于模型架構,不同的論文有不同的分發,不同的名稱。我們不必糾結于稱謂,在這里我們延續BigScience的概念來討論,即:

  1. 架構:自回歸、非自回歸、編碼器-解碼器
  2. 目標:全語言模型、前綴語言模型、掩碼語言模型
  3. 適配器:不添加適配器、將自回歸模型用于掩碼目標訓練的適配器、將掩碼為目標的模型轉化為純語言模型目標
  4. 是否經過多任務微調
  5. 評估數據集:EAI-Eval、T0-Eval

f1e805b4-ef0f-11ed-90ce-dac502259ad0.png

BigScience有兩項重要的結論,但這兩項結論是在控制預訓練的預算的基礎上的,而非控制參數量。如此實驗編碼器-解碼器用了11B參數量,而純解碼器卻是4.8B。

  1. 如果不經過多任務微調,自回歸模型最好,掩碼語言模型跟隨機結果一樣。
  2. 如果經過多任務微調,編碼器-解碼器掩碼模型最好【這參數量都翻倍了,很難說不是參數量加倍導致的】。換個角度想,在多任務微調之后,自回歸全語言模型在參數量不到編碼器-解碼器掩碼模型一半,計算量還少10%的情況下,效果還能差不多。

f209e242-ef0f-11ed-90ce-dac502259ad0.png

來自科學空間的對比實驗【https://spaces.ac.cn/archives/9529】更是印證了這一點:

在同等參數量、同等推理成本下,Decoder-only架構很可能是最優選擇。

效果和模型形狀有沒有關系

在openAI的實驗中,通過控制參數量,分別調整模型形狀的三個指標前饋維度比、寬高比、注意力頭維度,實驗表明,模型形狀對性能的依賴非常輕微。

f21ca788-ef0f-11ed-90ce-dac502259ad0.png

單獨研究層數,排除嵌入層的影響,除了一層這種極端情況之外,同樣參數下,不同的層數傾向于收斂于同樣的損失。

f237de0e-ef0f-11ed-90ce-dac502259ad0.png

到底需要多少數據訓練

在GPT-3中參數數據比約為1:1.7,而Chinchilla是為1:20。然而GPT-3參數量是Chinchilla的2.5倍,下游任務卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1:77,只有13B參數量很多任務就超越了GPT-3。這是不是和咱公眾號名字很符合:【無數據不智能】,海量高質量數據才是王道。

Model Parameters Training Tokens
LaMDA (2022) 137 Billion 168 Billion
GPT-3 (2020) 175 Billion 300 Billion
Jurassic (2021) 178 Billion 300 Billion
Gopher (2021) 280 Billion 300 Billion
MT-NLG 530B (2022) 530 Billion 270 Billion
Chinchilla(202) 70 Billion 1.4 Trillion
LLaMA(202) 13 Billion 1.0 Trillion

批次大小設置為多少好

f252e94c-ef0f-11ed-90ce-dac502259ad0.png

【Scaling Laws for Neural Language Models】實驗中表明batch size和模型大小無關,只和想達到的loss有關(冪次關系),同時也受到噪聲數據的影響。

學習率多大合適

f264f2a4-ef0f-11ed-90ce-dac502259ad0.png

  1. 只要學習率不是太小,衰減不是太快,性能對學習率的依賴性并不強。
  2. 較大的模型需要較小的學習率來防止發散,而較小的模型可以容忍較大的學習率。
  3. 經驗法則:LR(N) ≈ 0.003239 ? 0.0001395log(N),N:模型參數量

參數量、數據量、訓練時長和loss什么關系

f2812640-ef0f-11ed-90ce-dac502259ad0.png

參數量、數據量、訓練時長和loss都存在冪指數關系

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1144

    瀏覽量

    40835
  • 編碼器
    +關注

    關注

    45

    文章

    3655

    瀏覽量

    134894
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48976

原文標題:引用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對比性圖像語言預訓練模型(CLIP)在近期展現出了強大的視覺領域遷移能力,可以在一個全新的下游數據集上進行 zero-shot 圖像識別。
    的頭像 發表于 09-27 09:46 ?5412次閱讀

    震動環境下適合什么樣的液晶屏

    `經常有客戶會問我們,因為終端的使用環境比較惡劣,基本上在不停的震動,選用什么樣的液晶屏可以在震動環境下長久使用呢?當遇到這種問題的時候,我們首先會從液晶屏的結構和連接方式上考慮。其實,液晶屏的顯示
    發表于 12-13 15:28

    請問GTR的雙晶體管模型什么樣的?

    沒事看看了電力電子,看到這個原理圖,有點迷糊了,按圖所示,如果集電極C處為N型半導體,按照圖中來C極應該接負極才對呀?為什么還接正極?這樣如何導通?有沒有大神指導下GTR的雙晶體管模型什么樣的?
    發表于 06-11 09:03

    什么樣的示波器適合你?

    什么樣的示波器適合你?示波器自從問世以來,它一直是最重要、最常用的電子測試儀器之一。由于電子技術的發展,示波器的能力在不
    發表于 07-01 15:57 ?789次閱讀
    <b class='flag-5'>什么樣</b>的示波器<b class='flag-5'>適合</b>你?

    NLP事件抽取綜述之挑戰與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發表于 01-18 16:33 ?3843次閱讀
    NLP事件抽取綜述之挑戰與展望

    Zero-shot-CoT是multi-task的方法

    大規模預訓練語言模型借助于針對特定任務設計的prompt(無論是few shot還是zero shot),在單步驟的system-1任務上有著出色表現,但是對于那些緩慢和需要多步推理的
    的頭像 發表于 06-15 10:53 ?2466次閱讀

    基于Zero-Shot的多語言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已經取得了很好的性能,這主要得益于大規模預訓練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難得到大規模的標注數據。
    的頭像 發表于 07-08 10:49 ?1555次閱讀

    介紹一個基于CLIP的zero-shot實例分割方法

    CLIP是近年來在多模態方面的經典之作,得益于大量的數據和算力對模型進行預訓練,模型Zero-shot性能非常可觀,甚至可以在眾多數據集上和有監督訓練媲美。
    的頭像 發表于 10-13 09:13 ?4812次閱讀

    從預訓練語言模型看MLM預測任務

    為了解決這一問題,本文主要從預訓練語言模型看MLM預測任務、引入prompt_template的MLM預測任務、引入verblize類別映射的Prompt-MLM預測、基于zero-shot
    的頭像 發表于 11-14 14:56 ?3173次閱讀

    基于GLM-6B對話模型的實體屬性抽取項目實現解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒搞清楚他們的差別,究竟什么叫zero-shot,其在應用過程中的no gradient upd
    的頭像 發表于 03-28 10:11 ?7059次閱讀

    模型LLM領域,有哪些可以作為學術研究方向?

    隨著全球大煉模型不斷積累的豐富經驗數據,人們發現大模型呈現出很多與以往統計學習模型、深度學習模型、甚至預訓練小模型不同的特性,耳熟能詳的如F
    的頭像 發表于 05-29 14:36 ?1178次閱讀
    大<b class='flag-5'>模型</b>LLM領域,有哪些可以作為學術研究方向?

    邁向多模態AGI之開放世界目標檢測

    OVD的基礎概念:OVD的使用主要涉及到 few-shotzero-shot兩大類場景,few-shot是指有少量人工標注訓練樣本的目標類別,zero-shot則是指不存在任何人
    的頭像 發表于 06-15 16:08 ?865次閱讀
    邁向多模態AGI之開放世界目標檢測

    基于通用的模型PADing解決三大分割任務

    數據需要消耗巨大的時間以及人力成本。為處理上述難題,零本學習(Zero-Shot Learning,ZSL)被提出用于分類沒有訓練樣本的新對象,并擴展到分割任務中,例如零本語義分割(Zer
    的頭像 發表于 06-26 10:39 ?557次閱讀
    基于通用的<b class='flag-5'>模型</b>PADing解決三大分割任務

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進投影式光刻機(stepper)的一個shot一個shot進行曝光的,并不是一整張晶圓同時曝光,那么stepper的shot什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發表于 10-09 18:13 ?6810次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據推理的few-shot關系抽取CoT

    最近,上下文學習策略已被證明在沒有訓練的情況下顯示出顯著的結果。很少有研究利用上下文學習進行zero-shot信息提取。不幸的是,推理的證據在思維鏈提示的構建過程中沒有被考慮或隱式建模。
    的頭像 發表于 11-20 17:44 ?933次閱讀
    基于顯式證據推理的few-<b class='flag-5'>shot</b>關系抽取CoT
    主站蜘蛛池模板: 天天躁日日躁狠狠躁一级毛片| 全国男人的天堂网站| 在线观看黄的网站| 91啪免费网站在线观看| xvsr-365波多野结衣| 三级网站免费| 国产黄色大全| 69日本人xxxxxxxx色| 日本一区二区免费在线观看| 二级片在线| 91中文字幕视频| 色啦啦影院| 亚洲欧洲国产精品你懂的| 亚洲一卡2卡3卡4卡5卡乱码 | 久久精品女人天堂| 黄色免费毛片| 在线免费影视| 久久影视一区| 天天狠天天透天干天天怕处| 欧美日韩精品乱国产538| 国产播放啪视频免费视频| 4438x成人免费| 亚洲最新在线| 日本www色视频| 国产精品四虎| 色依依视频视频在线观看| 色涩网站在线观看| 中国日韩欧美中文日韩欧美色| 亚洲美女视频一区二区三区| 欧美日韩高清一区| 高清人人天天夜夜曰狠狠狠狠| 午夜久久精品| www.天天操| 中文字幕一精品亚洲无线一区| 色播基地| 成人永久免费视频网站在线观看| 国产三级精品三级在线观看| 亚洲偷自偷白图片| 182tv免费视视频线路一二三| 国产亚洲欧美一区| 日本色图网站|