在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

In-Context-Learning在更大的語言模型上表現不同

深度學習自然語言處理 ? 來源:機器翻譯學堂 ? 2023-06-12 14:35 ? 次閱讀

最近,在語言模型領域取得了巨大的進展,部分是因為它們可以通過In-Context- Learning ( ICL)來完 成各種復雜的任務。在ICL中,模型在執行未見過的用例之前,會首先接收一些輸入-標簽對的示例。一 般來說,ICL對模型的增強,有以下原因:

按照上下文示例的格式,利用預訓練階段得到的語義先驗知識來預測標簽(例如,當看到帶有“正面情感”和“負面情感”標簽的電影評論示例,使用先驗知識來做情感分析)。

從給的上下文示例中學習輸入-標簽的映射(例如,正面評論應該映射到一個標簽,負面評論應該映射到另一個標簽的模式)。

在本文中,我們旨在了解這兩個因素(語義先驗知識和輸入-標簽映射)在ICL的影響,尤其是當語言模 型的規模發生變化時。我們通過2種實驗方法來對這兩個因素進行研究,實驗方法分別為:翻轉標簽的 ICL (flipped-label ICL)和語義無關標簽的ICL ( SUL- ICL)。

在翻轉標簽的ICL中,上下文示例的標簽的語義被翻轉(例如原先的標簽為“Negative”,被反轉為 “Positive”),使得語義先驗知識和輸入-標簽映射不匹配。

ps:可以理解為,語義先驗知識中與該上下文示例相似的標簽都是“Negative”的,但是此處通過“翻轉標簽”方法,變為“Positive”后,先驗知識與當前的上下文示例的輸入-標簽映射產生了不匹配。

在SUL- ICL中,上下文示例的標簽被替換為與上下文中所呈現的任務在語義上無關的詞語(例如,原 先的標簽“Positive”,被替換為"Foo")。

ps:例如,原先的標簽為影評領域的,現在替換為美食或者其他領域的詞

我們發現,覆蓋先驗知識是隨著模型規模的增大而涌現的一種能力(ps:覆蓋先驗知識可以理解為,從上 下文示例中學習,而不是預訓練階段的先驗知識),從語義無關標簽的上下文中學習的能力也是如此。我們還發現,指令微調(Instruct-tuning)對學習先驗知識能力的加強上要超過對學習輸入-標簽映射的 增強。(下圖為普通ICL,翻轉標簽ICL和語義無關ICL的示例)

wKgaomSGvN6AMWlZAAE8xuVcMYQ976.jpg

實驗設計

我們在七個廣泛使用的自然語言處理(NLP)任務上進行了實驗:情感分析、主/客觀分類、問題分類、 重復問題識別、蘊含關系識別、金融情感分析和仇恨言論檢測。我們在5種LLM上進行測試:PaLM、Flan- PaLM、GPT-InstructGPT和Codex。

翻轉標簽(Flipped Labels-ICL)

在這個實驗中,上下文示例的標簽被翻轉,意味著先驗知識和輸入-標簽映射不一致(例如,包含正面情 感的句子被標記為“Negative”),從而讓我們可以研究模型是否能夠覆蓋其先驗知識。在這種情況下, 具備覆蓋先驗知識能力的模型的性能應該會下降(因為真實的評估標簽沒有被翻轉)。(下圖為使用翻 轉標簽ICL后,不同語言模型的不同尺寸的在測試集上的準確率變化)

wKgZomSGvO-AQoBpAADCMu1yPK4646.jpg

我們發現,當沒有標簽被翻轉時,大型模型的性能優于小型模型(如預期所示)。但是,當我們翻轉越來越多的標簽時,小型模型的性能保持相對穩定,而大型模型的性能下降得非常明顯,甚至低于隨機猜 測的水平(例如,對于code-davinci-002模型,性能從90%下降到22.5%)。

這些結果表明,當上下文中出現與先驗知識不一致的輸入-標簽映射時,大型模型可以覆蓋預訓練的先驗 知識,而小型模型則無法做到。

?作者說:此處,我理解為,更大的語言模型在覆蓋先驗知識的能力上更強,也就是更容易從給的上下文示例中學習到新的知識,如果給的上下文示例中存在與先驗知識沖突的情況,則模型會更加偏重上下文示例。

語義無關標簽(SUL-ICL)

在這個實驗中,我們將標簽替換為語義不相關的標簽(例如,在情感分析中,我們使用“foo/bar”代替 “negative/positive”),這意味著模型只能通過學習輸入-標簽映射來執行ICL。如果模型在ICL中主要依 賴于先驗知識,那么在進行這種更改后,其性能應該會下降,因為它將無法再利用標簽的語義含義進行 預測。而如果模型能夠在上下文中學習輸入-標簽映射,它就能夠學習這些語義無關的映射,并且不應該 出現主要性能下降。

(下圖為使用語義無關標簽ICL后,不同語言模型的不同尺寸的在測試集上的準確率變化)

wKgZomSGvP6ARzwhAACviOyRZZI230.jpg

事實上,我們發現對于小型模型來說,使用語義無關標簽導致了更大的性能下降。這表明,小型模型主要依賴于它們的語義先驗知識進行ICL,而不是從給的的輸入-標簽映射示例中學習。另一方面,當這些標簽標簽不再具備其原來所有的語義時,大型模型的學習上下文中的輸入-標簽映射的能力更強。

我們還發現,模型輸入更多的上下文示例對于大型模型的性能的提升要強于小模型,這表明大型模型比 小型模型更擅長從上下文示例中學習。

(下圖為使用不同數量的語義無關標簽ICL后,不同語言模型的不同尺寸的在測試集上的準確率變化)

wKgaomSGvQyABsu6AACtcOu_hfE481.jpg

指令微調(Instruction tuning)

指令微調是一種提高模型性能的常用技術,它將各種自然語言處理(NLP)任務調整為指令的形式輸入 給模型(例如,“問題:以下句子的情感是什么?答案:積極的“)。然而,由于該過程使用自然語言標簽,一個懸而未決的問題是,它是否提高了學習輸入-標簽映射的能力,亦或是增強了學習并應用語義先驗知識的能力。這兩者都會給ICL任務帶來性能提升,因此目前尚不清楚這兩者中哪一個生效了。

我們通過前兩個實驗方法繼續研究這個問題,但這一次我們專注于比較標準語言模型(PaLM)與經過指令微調的模型(Flan- PaLM)之間的差異。

首先,我們發現在使用語義無關標簽時, Flan- PaLM要優于PaLM。在小型模型中,這種效果非常明顯, Flan- PaLM-8B的性能超過PaLM-8B約9.6%,并且接近PaLM-62B的性能。這一趨勢表明,指令微調增強了學習輸入-標簽映射的能力。

(下圖表明:指令微調后的模型更容易學習輸入-標簽映射)

wKgZomSGvR6AMFQ_AACRdATvFiU433.jpg

更有趣的是,我們發現Flan- PaLM在遵循翻轉標簽方面實際上比PaLM要差,這意味著經過指令調整的模型無法覆蓋其先驗知識(Flan- PaLM模型在100%翻轉標簽的情況下無法達到低于隨機猜測 的水平,而沒有經過指令調整的PaLM模型在相同設置下可以達到31%的準確率)。這些結果表明,指令調整必須增加模型在有語義先驗知識可用時依賴于語義先驗知識的程度。

(下圖表示:指令微調后的模型,在使用翻轉標簽ICL時,更不容易覆蓋先驗知識)

wKgZomSGvSyAeu9yAABrlAO52H0196.jpg

結合之前的結果,我們得出結論,雖然指令微調提高了學習輸入-標簽映射的能力,但它在學習語義先驗 知識上的加強更為突出。

結論

通過上述實驗,可以得到以下的結論:

首先,大語言模型可以在輸入足夠多的翻轉標簽的情況下學會對先驗知識的覆蓋,并且這種能力隨 著模型規模的增大而加強。

其次,使用語義無關標簽進行上下文學習的能力隨著模型規模的增大而加強。

最后,通過對指令微調后的語言模型的研究,發現指令微調雖然可以提高學習輸入-標簽映射的能 力,但遠不如其對學習語義先驗知識的加強。

未來工作

這些結果強調了語言模型的ICL行為在模型規模方面可能發生變化,而更大的語言模型具有將輸入映射到更多種類型標簽的能力,這可能使得模型可以學習任意符號的輸入-標簽映射。未來的研究可以幫助我們更好地理解這種現象。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Palm
    +關注

    關注

    0

    文章

    22

    瀏覽量

    11286
  • icl
    icl
    +關注

    關注

    0

    文章

    28

    瀏覽量

    17240
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22059

原文標題:In-Context-Learning在更大的語言模型上表現不同

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估
    的頭像 發表于 11-23 15:05 ?1014次閱讀
    大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯推理能力探究

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    超出預期的能力和表現。這種能力主要體現在學習能力提升、語言理解和生成能力,以及創新和探索等方面。大語言模型擁有更大的參數空間和表征能力,能學
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    的,與上下文語境無關,因此不適用于一詞多義的情況。例如,“蘋果”“我去吃個蘋果”與“這個蘋果手機好用嗎”這兩個句子中的語義明顯不同,但靜態詞向量語言模型僅利用同一個向量表示詞的語義,難以刻畫同一個詞
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的評測

    任務、評測集構建標準和評測方式三個部分。特別地,為了關注大語言模型中文場景的優化和應用,該框架特別注重中文特有語境下的能力考察。其貢獻在于不僅能更準確地反映模型
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發表于 05-07 17:21

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,耳真正厲害的是Transformer,此框架被推出后直接
    發表于 05-12 23:57

    HarmonyOS/OpenHarmony應用開發-Stage模型ArkTS語言AbilityStage

    進行初始化時回調。context接口示例:*附件:HarmonyOSOpenHarmony應用開發-stage模型ArkTS語言AbilityStage.docx
    發表于 04-07 15:16

    微軟視覺語言模型有顯著超越人類的表現

    最近開發了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現
    的頭像 發表于 01-19 14:32 ?1680次閱讀

    應用于任意預訓練模型的prompt learning模型—LM-BFF

    /2107.13586.pdf 相關資源:http://pretrain.nlpedia.ai Part1什么是Prompt Learning 從BERT誕生開始,使用下游任務數據微調預訓練語言模型 (LM)已成為
    的頭像 發表于 08-16 11:21 ?4649次閱讀
    應用于任意預訓練<b class='flag-5'>模型</b>的prompt <b class='flag-5'>learning</b><b class='flag-5'>模型</b>—LM-BFF

    一文解析In-Context Learning

    本文主要以實驗為主,探究以上影響 ICL 的因素。 實驗設置 作者采用 12 個模型進行了實驗。我們包括 6 種語言模型(表 1),所有這些模型都是僅限解碼器的 dense L
    發表于 03-22 15:21 ?3695次閱讀

    In-context learning如何工作?斯坦福學者用貝葉斯方法解開其奧秘

    In-context learning允許用戶為新用例快速構建模型,而無需為每個任務微調和存儲新參數。它通常只需要很少的訓練示例就可以使模型正常工作,而且即使對于非專家來說,也可以通過
    的頭像 發表于 04-11 14:07 ?1487次閱讀

    In-context learning介紹

    隨著大規模預訓練語言模型(LLM)能力的不斷提升,in-context learning(ICL)逐漸成為自然語言處理領域一個新的范式。
    的頭像 發表于 04-21 10:02 ?1680次閱讀

    模型LLM領域,有哪些可以作為學術研究方向?

    隨著全球大煉模型不斷積累的豐富經驗數據,人們發現大模型呈現出很多與以往統計學習模型、深度學習模型、甚至預訓練小模型不同的特性,耳熟能詳的如F
    的頭像 發表于 05-29 14:36 ?1165次閱讀
    大<b class='flag-5'>模型</b>LLM領域,有哪些可以作為學術研究方向?

    首篇!Point-In-Context:探索用于3D點云理解的上下文學習

    隨著基于廣泛數據訓練的大模型興起,上下文學習(In-Context Learning)已成為一種新的學習范式,自然語言處理(NLP)和計算
    的頭像 發表于 07-13 14:41 ?802次閱讀
    首篇!Point-In-<b class='flag-5'>Context</b>:探索用于3D點云理解的上下文學習

    鴻蒙開發組件:FA模型Context

    FA模型下只有一個ContextContext中的所有功能都是通過方法來提供的,它提供了一些featureAbility中不存在的方法,相當于featureAbility的一個擴展和補全。
    的頭像 發表于 06-21 09:43 ?314次閱讀
    鴻蒙開發組件:FA<b class='flag-5'>模型</b>的<b class='flag-5'>Context</b>
    主站蜘蛛池模板: 黄色性生活毛片| 国产高清不卡一区二区| 天堂最新版资源www在线| 甘婷婷一级毛片免费看| 亚洲国产欧美精品一区二区三区 | 免费看吻胸亲嘴激烈网站| 在线观看亚洲人成网站| 一 级 黄 中国色 片| 性 色 黄 一级| 在线资源你懂的| 一级黄色免费毛片| 色窝网| 美女视频黄.免费网址| 国产黄色大片又色又爽| 五月天婷婷网亚洲综合在线| 久久人人干| 免费观看片| 69ww免费视频播放器| ggg成人| 欧美极品第1页专区| 九色视频网| 男人日女人的网站| 中国人黑人xxⅹ性猛| 中文字幕一区二区三区免费视频 | 日本级毛片免费观看| 一级毛片aaa片免费观看| 色色色色网| 黄色视屏日本| 天天精品| 色拍拍综合网| 色涩在线| 真实女人寂寞偷人视频| 日韩一级欧美一级| 国产va在线播放| 奇米影视9999| 亚州一级毛片在线| 男人j进女人j视频| 天堂影院在线| 国内一级特黄女人精品片| 天天射天天射天天干| 神马三级我不卡|