在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

深度學習自然語言處理 ? 來源:南大NLP ? 2024-01-04 14:06 ? 次閱讀

01

研究動機

近期的大語言模型(LLM)在自然語言理解和生成上展現出了接近人類的強大能力,遠遠優于先前的BERT等預訓練模型(PLM)。然而,尚不清楚這是否意味著模型的計算過程更加接近了人類的語言感知方式。此前的研究表明,與人類行為和神經數據具有更高相關性的模型,在自然語言任務上的表現也越好[1],但在大模型技術井噴的當下,最新、性能最強的大模型是否仍然與人類數據相關,也需要進一步檢驗。

同時,LLM較PLM等先前模型等能力提升的背后機制尚不清楚。由于現有LLM的基本架構與先前模型一樣是Transformer架構,因此這種提升很可能來自與訓練過程的差異:可能來自于擴大了的參數和數據規模,也可能來自于預訓練后的指令微調。

為了解決上述的兩方面問題,本文嘗試比較LLM與人類閱讀時行為數據的相關性,通過比較擴大規模與指令微調兩個因素對于LLM語言理解過程的作用,幫助人們更好地認識LLM的運行機制。由于自注意力(self-attention)機制是Transformer模型的關鍵機制,并且天然與人類的注意力機制在形式上相似,因此適合用來分析和解釋模型的計算過程。本文收集了現有的不同種類(LLaMA,Alpaca,Vicuna)不同大小(7B到65B)的開源LLM在英文文本上的自注意力矩陣進行對比分析,并計算了它們與人類閱讀相同文本時的眼動數據的相關性,有效分析了兩個因素的作用。

02

貢獻

本文的分析主要包括三方面:一,我們逐層計算了不同LLM在所選文本數據上的注意力分布差異;二,我們評估并比較了不同LLM與人類眼動數據的相似度;三,我們分析了模型注意力矩陣對常見平凡特征的依賴性,并展示了這種依賴性與模型語言理解特點的關系。本文的主要發現有:

1)規模擴大可以顯著改變模型在普通文本上的注意力分布,而指令微調對此的改變較為有限。然而,指令微調可以提高模型對指令前綴的敏感程度;

2)LLM的人類相似度越高,語言建模的能力也越好。規模擴大對人類相似度的提高基本符合縮放法則[2],而指令微調反而降低了人類相似度。同時,雖然所有模型都以英文為主訓練,但它們都與英語為第二語言的人群(L2)有更高的相似度,而不是母語人群(L1);

3)規模擴大可以顯著降低模型對平凡特征的依賴性,而指令微調不能。同時,L2的眼動模式也比L1更加依賴于平凡特征。

03

方法

3.1 比較不同模型的注意力差異

我們使用Jensen-Shannon (J-S) 散度來比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數的模型時,我們逐層計算此J-S散度;比較具有不同層數的模型時,我們分別將兩個模型的層平均分為4部分,比較每個部分的平均注意力的J-S散度。

為了幫助判斷J-S散度的大小,我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個模型擁有一致的架構、大小與訓練數據,只是數據格式有較小的差別。當其他兩個模型的J-S散度大于此參考值時,我們認為這是注意力模式上的較大差別,反之則是較小的差別。

此J-S散度也被用來比較模型在普通文本與指令文本上的注意力分布差別。我們在普通文本的每個句子前加上指令前綴,如“Please translate this sentence into German:”,并在計算J-S散度時將前綴部分的注意力分數忽略,計算添加指令前后,模型注意力的J-S散度。同時,我們還使用了一個噪聲前綴進行同樣的實驗,作為控制組,更好地評價指令前綴的影響。

3.2 模型與人類眼動的相似度

人類眼動數據的形式如圖1所示。我們將模型的每個注意力頭作為一個自變量,將人類注意力作為目標,建立線性回歸模型,計算此模型的擬合分數,并與人類被試之間的擬合分數作商,作為人類相似度分數。

4b909f5e-aab8-11ee-8b88-92fbcf53809c.png

圖1 單人與群體平均的眼動矩陣示例

3.3 平凡特征依賴性

已有研究表明,Transformer模型的注意力模式可能包含一些簡單、固定的特征,包括每個詞都關注句子中第一個詞、每個詞都關注自身、每個詞都關注前一個詞等[3,4]。我們將這三種平凡特征作為自變量,人類注意力與模型注意力分別作為目標,建立線性回歸模型,同樣計算擬合分數,作為對這三種平凡特征的依賴性的度量。

04

實驗

我們使用了Reading Brain數據集[5]中的文本和人類行為數據。文本數據包括5篇英語說明文,人類行為數據包括52名英語母語者與56名非母語者的數據。對于眼動數據,我們使用眼跳動次數,而不是注視時間,以減少其他因素(如單詞長度)對眼動數據的影響。對于LLM,我們選用了774M(GPT-2 Large),7B(LLaMA, Alpaca, Vicuna),13B(LLaMA, Alpaca, Vicuna),65B(LLaMA)的多個模型。

4.1 模型注意力分布差異

隨著參數規模擴大,模型注意力分布發生顯著變化,而指令微調的作用有限。圖2展示了不同大小模型的J-S散度結果。結果顯示,LLaMA,Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異,說明參數規模擴大對整體注意力分布有較大改變。圖3展示了-經過指令微調(Alpaca,Vicuna)與未經過(LLaMA)的模型注意力的J-S散度結果。結果表明,只有Vicuna 13B模型較微調前產生了高于參考值的注意力散度,說明指令微調對整體注意力分布的影響有限。

4b9fedf6-aab8-11ee-8b88-92fbcf53809c.png

圖2 7B與13B模型注意力的平均J-S散度

然而,指令微調提高了模型對指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度,可以發現,所有模型均在兩種文本上顯示出了高于參考值的注意力差異,但這種差異在LLaMA(未經過指令微調)的深層逐漸衰減,在Alpaca和Vicuna的深層卻保持在較高水平。這種現象在噪聲前綴的場景下沒有出現。這說明在指令微調前,模型已經具備了一定的識別指令前綴的能力,但這種能力主要集中在模型淺層;在指令微調后,模型識別指令前綴的能力向深層移動,因此能對模型的生成過程產生更直接的改變。

4bb789f2-aab8-11ee-8b88-92fbcf53809c.png

圖3 經過與未經過指令微調的模型注意力的J-S散度

4bd0b382-aab8-11ee-8b88-92fbcf53809c.png

圖4 普通文本與指令文本上的模型注意力的J-S散度

4.2 人類相似度

人類相似度與語言建模能力正相關。圖5展示了各個模型在Reading Brain數據集的文本上的下一個單詞預測(Next Token Prediction, NTP)損失與它們所有層中最大的人類相似度分數,以及兩者的線性關系。可以發現,人類相似度越高,NTP損失越低,即語言建模能力越強。這說明人類相似度分數的確與語言感知能力有關。

4bf3221e-aab8-11ee-8b88-92fbcf53809c.png

圖5 各模型的NTP損失與人類相似度及其相關性

參數規模擴大能夠提升人類相似度,而指令微調會降低人類相似度。圖6展示了未經過指令微調的不同大小模型(GPT-2 774M到LLaMA 65B)的所有層中,最大的人類相似度分數。可以發現,隨著參數規模的指數增加,模型的人類相似度分數約呈現線性提升,符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調前后的人類相似度。可以發現,指令微調不僅不能提升人類相似度,反而會造成輕微的降低。相對t檢驗結果顯示,指令微調顯著降低人類相似度的層數,遠高于顯著提升人類相似度的層數。

4bff78b6-aab8-11ee-8b88-92fbcf53809c.png

圖6 不同大小模型的所有層中最大的人類相似度分數

表1 指令微調前后模型的人類相似度

4c09c7f8-aab8-11ee-8b88-92fbcf53809c.png

4.3 平凡特征依賴性

參數規模擴大可以降低平凡特征依賴性,而指令微調會提高平凡特征依賴性。圖7展示了7B模型到13B模型到平凡特征依賴性分數變化,可以發現尤其在深層,模型的依賴性分數發生了較大下降。反之,圖8展示了指令微調前后模型平凡特征依賴性分數的變化,可以發現依賴性分數在深層上升了。這說明參數規模擴大可以讓模型的語言理解過程更加靈活,而指令微調則會讓其更加固定。

4c1bf658-aab8-11ee-8b88-92fbcf53809c.png

圖7 7B到13B大小的平凡特征依賴性分數變化

4c27c35c-aab8-11ee-8b88-92fbcf53809c.png

圖8 指令微調后的平凡特征依賴性分數變化

L2對平凡特征的依賴程度更高。表2展示了L1與L2人群的眼動模式對平凡特征的依賴性分數。可以發現,L2在最小值、最大值與平均值上均高于L1,獨立t檢驗結果也支持L2分數顯著高于L1。這說明非母語人群在閱讀英語文本時的眼動模式比母語人群顯示出更多的固定、簡單模式。

表2 L1與L2的平凡特征依賴性分數,SE為標準差

4c36c6ea-aab8-11ee-8b88-92fbcf53809c.png

05

總結

本文評估了參數規模擴大與指令微調對模型在自然語言理解過程中的注意力的影響。我們發現,參數規模擴大可以有效改變模型的整體注意力分布,提高模型的人類相似度,并降低模型對平凡特征的依賴程度;而指令微調基本上起到相反的效果,但也會提高模型對指令內容的敏感性。同時,我們的結果也展示出,目前的以英語為主的開源LLM的注意力模式更接近非英語母語者的眼動模式,提示了當前模型與人類在語言感知上的差異。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    121

    瀏覽量

    20869
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • LLM
    LLM
    +關注

    關注

    0

    文章

    288

    瀏覽量

    335

原文標題:EMNLP2023 | 模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    Transformer架構,利用自注意力機制對文本進行編碼,通過預訓練、有監督微調和強化學習等階段,不斷提升性能,展現出強大的語言理解和生成能力。 大
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】核心技術綜述

    其預訓練和微調,直到模型的部署和性能評估。以下是對這些技術的綜述: 模型架構: LLMs通常采用深層的神經網絡架構,最常見的是Transformer網絡,它包含多個自注意力層,能夠捕
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    模型仍以Transformer為基礎進行訓練。Transformer是一種基于自注意力機制的編碼器-解碼器結構,其核心由編碼器和解碼器組成,每個部分均由多個相同層堆疊而成。自注意力機制使
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的評測

    的工具。通過這一框架,研究人員和使用者可以更準確地了解模型在實際應用中的表現,為后續的優化和產品化提供有力支持。針對語言理解類評測任務,特別是古文及諺語理解,我們深入評估了
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大
    發表于 05-07 17:21

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發燒友提供的書籍試讀機會。今天來分享我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數
    發表于 06-07 14:44

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實現語言的編碼和解碼。 注意力機制:Transformer中的注意力機制使得
    發表于 08-02 11:03

    基于注意力機制的深度學習模型AT-DPCNN

    情感分析是自然語言處理領域的一個重要分支,卷積神經網絡(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關鍵情感信息。為此,建立一種基于注意力機制的深度學習模型AT-
    發表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b>機制的深度學習<b class='flag-5'>模型</b>AT-DPCNN

    一種注意力增強的自然語言推理模型aESIM

    在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞
    發表于 03-25 11:34 ?9次下載
    一種<b class='flag-5'>注意力</b>增強的自然<b class='flag-5'>語言</b>推理<b class='flag-5'>模型</b>aESIM

    基于語音、字形和語義的層次注意力神經網絡模型

    結合英文幽默語言學特征,提出基于語音、字形和語義的層次注意力神經網絡模型( PFSHAN)進行幽默識別。在特征提取階段,將幽默文本表示為音素、字符以及攜帶歧義性等級信息的語義形式,分別采用卷積
    發表于 03-26 15:38 ?14次下載
    基于語音、字形和語義的層次<b class='flag-5'>注意力</b>神經網絡<b class='flag-5'>模型</b>

    基于多層CNN和注意力機制的文本摘要模型

    基于注意力機制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務上得到了廣泛的應用。在深度學習框架中,深層神經網絡能夠提取輸λ數據不冋的特征表示,因此傳統編解碼模型中通常堆疊多層解碼器來提高模型
    發表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b>機制的文本摘要<b class='flag-5'>模型</b>

    基于循環卷積注意力模型的文本情感分類方法

    和全局信息。文中針對單標記和多標記情感分類任務,提出一種循環卷積注意力模型( LSTM-CNN-ATT,LCA)。該模型利用注意力機制融合卷積神經網絡( Convolutional n
    發表于 04-14 14:39 ?10次下載
    基于循環卷積<b class='flag-5'>注意力</b><b class='flag-5'>模型</b>的文本情感分類方法

    基于注意力機制等的社交網絡熱度預測模型

    基于注意力機制等的社交網絡熱度預測模型
    發表于 06-07 15:12 ?14次下載

    基于注意力機制的新聞文本分類模型

    基于注意力機制的新聞文本分類模型
    發表于 06-27 15:32 ?30次下載

    PyTorch教程-16.5。自然語言推理:使用注意力

    )提出用注意力機制解決自然語言推理,并將其稱為“可分解注意力模型”。這導致模型沒有循環層或卷積層,在 SNLI 數據集上以更少的
    的頭像 發表于 06-05 15:44 ?569次閱讀
    PyTorch教程-16.5。自然<b class='flag-5'>語言</b>推理:使用<b class='flag-5'>注意力</b>
    主站蜘蛛池模板: 32pao强力打造免费高速高清| 九九热re| 亚洲一级毛片在线观播放| 三级黄色在线视频| 在线免费看片a| 欧美影院一区二区三区| brazzersvideosex欧美高清| 国产精品午夜久久| 尤物黄色| 国产色秀视频| 我被黑人巨大开嫩苞在线观看| 午夜理伦| 又黄又粗暴的120秒免费gif视频| 男人天堂黄色| 日本亚洲精品色婷婷在线影院| 午夜国产| 男男互攻h啪肉np文厉世| 欧美伊人久久大香线蕉综合69| 天天摸天天摸天天躁| 美女黄网站人色视频免费国产| 老色视频| 成人激情视频网| 深夜一级毛片| 天天天狠天天透天天制色| 男女交性视频免费播放| 久久男人的天堂色偷偷| 久久福利免费视频| 五月婷婷六月婷婷| 伊人天伊人天天网综合视频| 亚洲性一区| 久久lu| www天天操| 日本大黄视频| 久久亚洲国产成人精品性色| 午夜精品福利在线观看| 亚洲va中文va欧美va爽爽| 美女扒开尿口让男人捅| 国产色综合一区二区三区| 夜夜嘿视频免费看| 好爽毛片一区二区三区四区| 性欧美处|