01
研究動機
近期的大語言模型(LLM)在自然語言理解和生成上展現出了接近人類的強大能力,遠遠優于先前的BERT等預訓練模型(PLM)。然而,尚不清楚這是否意味著模型的計算過程更加接近了人類的語言感知方式。此前的研究表明,與人類行為和神經數據具有更高相關性的模型,在自然語言任務上的表現也越好[1],但在大模型技術井噴的當下,最新、性能最強的大模型是否仍然與人類數據相關,也需要進一步檢驗。
同時,LLM較PLM等先前模型等能力提升的背后機制尚不清楚。由于現有LLM的基本架構與先前模型一樣是Transformer架構,因此這種提升很可能來自與訓練過程的差異:可能來自于擴大了的參數和數據規模,也可能來自于預訓練后的指令微調。
為了解決上述的兩方面問題,本文嘗試比較LLM與人類閱讀時行為數據的相關性,通過比較擴大規模與指令微調兩個因素對于LLM語言理解過程的作用,幫助人們更好地認識LLM的運行機制。由于自注意力(self-attention)機制是Transformer模型的關鍵機制,并且天然與人類的注意力機制在形式上相似,因此適合用來分析和解釋模型的計算過程。本文收集了現有的不同種類(LLaMA,Alpaca,Vicuna)不同大小(7B到65B)的開源LLM在英文文本上的自注意力矩陣進行對比分析,并計算了它們與人類閱讀相同文本時的眼動數據的相關性,有效分析了兩個因素的作用。
02
貢獻
本文的分析主要包括三方面:一,我們逐層計算了不同LLM在所選文本數據上的注意力分布差異;二,我們評估并比較了不同LLM與人類眼動數據的相似度;三,我們分析了模型注意力矩陣對常見平凡特征的依賴性,并展示了這種依賴性與模型語言理解特點的關系。本文的主要發現有:
1)規模擴大可以顯著改變模型在普通文本上的注意力分布,而指令微調對此的改變較為有限。然而,指令微調可以提高模型對指令前綴的敏感程度;
2)LLM的人類相似度越高,語言建模的能力也越好。規模擴大對人類相似度的提高基本符合縮放法則[2],而指令微調反而降低了人類相似度。同時,雖然所有模型都以英文為主訓練,但它們都與英語為第二語言的人群(L2)有更高的相似度,而不是母語人群(L1);
3)規模擴大可以顯著降低模型對平凡特征的依賴性,而指令微調不能。同時,L2的眼動模式也比L1更加依賴于平凡特征。
03
方法
3.1 比較不同模型的注意力差異
我們使用Jensen-Shannon (J-S) 散度來比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數的模型時,我們逐層計算此J-S散度;比較具有不同層數的模型時,我們分別將兩個模型的層平均分為4部分,比較每個部分的平均注意力的J-S散度。
為了幫助判斷J-S散度的大小,我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個模型擁有一致的架構、大小與訓練數據,只是數據格式有較小的差別。當其他兩個模型的J-S散度大于此參考值時,我們認為這是注意力模式上的較大差別,反之則是較小的差別。
此J-S散度也被用來比較模型在普通文本與指令文本上的注意力分布差別。我們在普通文本的每個句子前加上指令前綴,如“Please translate this sentence into German:”,并在計算J-S散度時將前綴部分的注意力分數忽略,計算添加指令前后,模型注意力的J-S散度。同時,我們還使用了一個噪聲前綴進行同樣的實驗,作為控制組,更好地評價指令前綴的影響。
3.2 模型與人類眼動的相似度
人類眼動數據的形式如圖1所示。我們將模型的每個注意力頭作為一個自變量,將人類注意力作為目標,建立線性回歸模型,計算此模型的擬合分數,并與人類被試之間的擬合分數作商,作為人類相似度分數。
圖1 單人與群體平均的眼動矩陣示例
3.3 平凡特征依賴性
已有研究表明,Transformer模型的注意力模式可能包含一些簡單、固定的特征,包括每個詞都關注句子中第一個詞、每個詞都關注自身、每個詞都關注前一個詞等[3,4]。我們將這三種平凡特征作為自變量,人類注意力與模型注意力分別作為目標,建立線性回歸模型,同樣計算擬合分數,作為對這三種平凡特征的依賴性的度量。
04
實驗
我們使用了Reading Brain數據集[5]中的文本和人類行為數據。文本數據包括5篇英語說明文,人類行為數據包括52名英語母語者與56名非母語者的數據。對于眼動數據,我們使用眼跳動次數,而不是注視時間,以減少其他因素(如單詞長度)對眼動數據的影響。對于LLM,我們選用了774M(GPT-2 Large),7B(LLaMA, Alpaca, Vicuna),13B(LLaMA, Alpaca, Vicuna),65B(LLaMA)的多個模型。
4.1 模型注意力分布差異
隨著參數規模擴大,模型注意力分布發生顯著變化,而指令微調的作用有限。圖2展示了不同大小模型的J-S散度結果。結果顯示,LLaMA,Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異,說明參數規模擴大對整體注意力分布有較大改變。圖3展示了-經過指令微調(Alpaca,Vicuna)與未經過(LLaMA)的模型注意力的J-S散度結果。結果表明,只有Vicuna 13B模型較微調前產生了高于參考值的注意力散度,說明指令微調對整體注意力分布的影響有限。
圖2 7B與13B模型注意力的平均J-S散度
然而,指令微調提高了模型對指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度,可以發現,所有模型均在兩種文本上顯示出了高于參考值的注意力差異,但這種差異在LLaMA(未經過指令微調)的深層逐漸衰減,在Alpaca和Vicuna的深層卻保持在較高水平。這種現象在噪聲前綴的場景下沒有出現。這說明在指令微調前,模型已經具備了一定的識別指令前綴的能力,但這種能力主要集中在模型淺層;在指令微調后,模型識別指令前綴的能力向深層移動,因此能對模型的生成過程產生更直接的改變。
圖3 經過與未經過指令微調的模型注意力的J-S散度
圖4 普通文本與指令文本上的模型注意力的J-S散度
4.2 人類相似度
人類相似度與語言建模能力正相關。圖5展示了各個模型在Reading Brain數據集的文本上的下一個單詞預測(Next Token Prediction, NTP)損失與它們所有層中最大的人類相似度分數,以及兩者的線性關系。可以發現,人類相似度越高,NTP損失越低,即語言建模能力越強。這說明人類相似度分數的確與語言感知能力有關。
圖5 各模型的NTP損失與人類相似度及其相關性
參數規模擴大能夠提升人類相似度,而指令微調會降低人類相似度。圖6展示了未經過指令微調的不同大小模型(GPT-2 774M到LLaMA 65B)的所有層中,最大的人類相似度分數。可以發現,隨著參數規模的指數增加,模型的人類相似度分數約呈現線性提升,符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調前后的人類相似度。可以發現,指令微調不僅不能提升人類相似度,反而會造成輕微的降低。相對t檢驗結果顯示,指令微調顯著降低人類相似度的層數,遠高于顯著提升人類相似度的層數。
圖6 不同大小模型的所有層中最大的人類相似度分數
表1 指令微調前后模型的人類相似度
4.3 平凡特征依賴性
參數規模擴大可以降低平凡特征依賴性,而指令微調會提高平凡特征依賴性。圖7展示了7B模型到13B模型到平凡特征依賴性分數變化,可以發現尤其在深層,模型的依賴性分數發生了較大下降。反之,圖8展示了指令微調前后模型平凡特征依賴性分數的變化,可以發現依賴性分數在深層上升了。這說明參數規模擴大可以讓模型的語言理解過程更加靈活,而指令微調則會讓其更加固定。
圖7 7B到13B大小的平凡特征依賴性分數變化
圖8 指令微調后的平凡特征依賴性分數變化
L2對平凡特征的依賴程度更高。表2展示了L1與L2人群的眼動模式對平凡特征的依賴性分數。可以發現,L2在最小值、最大值與平均值上均高于L1,獨立t檢驗結果也支持L2分數顯著高于L1。這說明非母語人群在閱讀英語文本時的眼動模式比母語人群顯示出更多的固定、簡單模式。
表2 L1與L2的平凡特征依賴性分數,SE為標準差
05
總結
本文評估了參數規模擴大與指令微調對模型在自然語言理解過程中的注意力的影響。我們發現,參數規模擴大可以有效改變模型的整體注意力分布,提高模型的人類相似度,并降低模型對平凡特征的依賴程度;而指令微調基本上起到相反的效果,但也會提高模型對指令內容的敏感性。同時,我們的結果也展示出,目前的以英語為主的開源LLM的注意力模式更接近非英語母語者的眼動模式,提示了當前模型與人類在語言感知上的差異。
審核編輯:劉清
-
PLM
+關注
關注
2文章
121瀏覽量
20869 -
語言模型
+關注
關注
0文章
524瀏覽量
10277 -
LLM
+關注
關注
0文章
288瀏覽量
335
原文標題:EMNLP2023 | 模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論