大型語言模型可以用來教小得多的學(xué)生模型如何進(jìn)行一步一步地推理。本文方法顯著提高了小型 (~0.3B 參數(shù)) 模型在一系列任務(wù)上的性能,在許多情況下甚至可以達(dá)到或超過大型模型的性能。
語言模型(LMs)在各種下游任務(wù)中表現(xiàn)出色,這主要歸功于它們通過 Transformer 架構(gòu)(Vaswani et al.,2017)和大量網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)獲得的可擴(kuò)展性。先前的語言模型研究遵循了在大型語料庫上預(yù)先訓(xùn)練,然后在下游任務(wù)上微調(diào)的范式(Raffel et al.,2020; Devlin et al.,2018)。最近,大型語言模型(LLMs)向人們展示了其上下文泛化能力:通過僅在幾個上下文樣例或純自然語言任務(wù)描述上調(diào)整就能完成下游任務(wù)(Brown et al.,2020; Sun et al.,2021)。
如果給語言模型生成一些 prompting,它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法,即為使用少樣本的問答對或零樣本的指令的一系列方法,已經(jīng)被證明不足以解決需要多個推理步驟的下游任務(wù)(Chowdhery 等,2022)。
但是,最近的研究已經(jīng)證明,通過包含少數(shù)思維鏈(CoT)推理的樣本(Wang 等,2022b)或通過 promp 來讓模型逐步思考的方法(Kojima 等,2022)可以在大型語言模型中促成復(fù)雜的推理能力。
基于 promp 的思維鏈方法的主要缺點是它需要依賴于擁有數(shù)十億參數(shù)的巨大語言模型(Wei et al,2022b;Kojima et al,2022)。由于計算要求和推理成本過于龐大,這些模型難以大規(guī)模部署(Wei et al,2022b)。因此,來自韓國科學(xué)技術(shù)院的研究者努力使小型模型能夠進(jìn)行復(fù)雜的推理,以用于實際應(yīng)用。
有鑒于此,本文提出了一種名為微調(diào)思維鏈的方法,該方法旨在利用非常大的語言模型的思維鏈推理能力來指導(dǎo)小模型解決復(fù)雜任務(wù)。
論文鏈接:https://arxiv.org/pdf/2212.10071.pdf
項目地址:https://github.com/itsnamgyu/reasoning-teacher
為了詳細(xì)說明,本文應(yīng)用現(xiàn)有的零樣本思維鏈 prompting(Kojima 等人,2022)從非常大的教師模型中生成推理,并使用它們來微調(diào)較小的學(xué)生模型。
研究者注意到,與標(biāo)準(zhǔn)的 prompting 類似,對于訓(xùn)練語言模型來解決復(fù)雜推理的任務(wù)來說,純微調(diào)往往是不夠的。雖然已經(jīng)有人嘗試用規(guī)定好的推理步驟對小模型進(jìn)行微調(diào)來解決這個問題,但這些方法需要巨量的推理注釋,而且往往還需要與特定任務(wù)匹配的訓(xùn)練設(shè)置(Nye 等人,2021;Cobbe 等人,2021)。
本文提出的方法,由于基于語言模型的教師具有顯著的零樣本推理能力(Kojima 等人,2022),無需手工制作推理注釋及特定任務(wù)設(shè)置,可以很容易地應(yīng)用于新的下游任務(wù)。從本質(zhì)上講,本文的方法保留了基于 prompting 的思維鏈的多功能性,同時模型規(guī)模還不是很大。
研究者還對本文中的方法提出了一種擴(kuò)展,稱為多樣化推理,這種擴(kuò)展方法通過為每個訓(xùn)練樣本生成多個推理方案來最大限度地提高對思維鏈進(jìn)行微調(diào)的教學(xué)效果。具體來說可以通過簡單的重復(fù)隨機(jī)抽樣來實現(xiàn)。多樣化推理的動機(jī)是,多種推理路徑可以用來解決復(fù)雜的第二類任務(wù)(Evans, 2010)。本文認(rèn)為,這種推理路徑的多樣性以及語言模板的加入可以大大有助于復(fù)雜推理的微調(diào)。
本文使用公開的 GPT-3 模型對思維鏈微調(diào)和各類任務(wù)及規(guī)模的多樣化推理進(jìn)行了實證評估。本文提出的微調(diào)方法在復(fù)雜任務(wù)的小模型中具備明顯的推理性能,而以前基于 prompting 的方法則只具有接近隨機(jī)的性能。
本文表明,在思維鏈微調(diào)方法下的小模型在某些任務(wù)中的表現(xiàn)甚至超過了它們的大模型老師。通過多樣化的推理,研究者發(fā)現(xiàn)維鏈微調(diào)方法的性能是高度可擴(kuò)展的,并且即使在很少的訓(xùn)練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對思維鏈微調(diào)方法在眾多數(shù)據(jù)集上的表現(xiàn)進(jìn)行了徹底的樣本研究和消融實驗,在小模型上證明了其價值。在此過程中,本文揭示了微調(diào)在思維鏈推理中前作沒有被考慮到的一些重要細(xì)微差別。
方法概覽
本文提出了思維鏈微調(diào)方法,這是一種與下游任務(wù)無關(guān)的方法,可以在小型語言模型中實現(xiàn)思維鏈推理。該方法的核心思想是使用基于 prompting 的思維鏈方法從非常大的教師模型中生成推理樣本,然后使用生成的樣本對小型學(xué)生模型進(jìn)行微調(diào)。
這種方法保留了任務(wù)無偏的基于 prompt 思維鏈方法的優(yōu)點,同時克服了其對過大模型的依賴性。為了最大限度地提高通用性,本文在教師模型上使用了最新的零樣本思維鏈 prompting 方法(Kojima 等人,2022),因為此方法不需要任何手工注釋的推理解釋。作者注意到,本文提出的方法其實并不限于這種教師模型的 prompting 方式。文本將思維鏈微調(diào)方法拆解為三個步驟,如下圖所示。
步驟 1—— 推理生成
首先,本文利用一個大型的教師模型來為一個給定的任務(wù)生成思維鏈推理解釋。本文定義一個由問題 Q^i 和其真實答案 a^i 組成為一個標(biāo)準(zhǔn)樣本 S^i,然后使用零樣本思維鏈來為教師模型生成一個推理來解決問題 q^i,并生成最終的答案預(yù)測。由此產(chǎn)生的文本序列,包括 prompt 和生成結(jié)果,均采取以下形式
第 2 步 —— 整理
為了制備用于微調(diào)的樣本,本文對生成的樣本進(jìn)行了過濾,并將其重新格式化為 prompt-completion 形式的成對數(shù)據(jù)。對于過濾,本文將教師模型的最終預(yù)測值與真實答案 a^i 進(jìn)行比較,這與之前的一些工作是相同的(Zelikman 等人,2022;Huang 等人,2022)。對于所有這樣的實例 i,本文將(S_i ,?,?)重新打包成一個推理樣本,也就是一個 prompt-completion 形式的成對數(shù)據(jù)。由于本文提出的方法旨在為特定任務(wù)訓(xùn)練高效的模型,所以使用基于特殊字符的文本格式來盡量減少標(biāo)記的使用。具體來說,p_i 采用「
的形式。作者注意到,基于答案預(yù)測的過濾并不能確保推理的正確性,特別是對于可能出現(xiàn)隨機(jī)猜測的多選題。遺憾的是,以前的工作中這個問題還沒有得到解決。
步驟 3—— 微調(diào)
最后,本文使用開源的 OpenAI API 在集成的推理樣本上對一個小型的預(yù)訓(xùn)練學(xué)生模型進(jìn)行微調(diào)。本文使用與預(yù)訓(xùn)練時相同的訓(xùn)練目標(biāo),即自回歸語言建模目標(biāo),或者用 token 預(yù)測(Radford 等人,2018)。
多樣化推理
為了最大限度地提高思維鏈微調(diào)方法的對樣本的使用效率,本文提出可以為每個訓(xùn)練樣本生成多種推理解釋,從而增強微調(diào)數(shù)據(jù)。本文將此稱為多樣化推理。詳細(xì)來說,對于一個給定的樣本 S_i,本文不是采用貪心解碼策略的零樣本思維鏈方法來獲得單一的「解釋 — 答案」形式的成對數(shù)據(jù),而是采用隨機(jī)抽樣策略,即用 T 代表溫度抽樣,然后獲得 D 批不同的生成數(shù)據(jù)
。隨后對推理樣本整理和微調(diào)工作就像上面一樣進(jìn)行。本文把 D 稱為推理的多樣性程度。多樣化推理的動機(jī)是,多種推理路徑可以用來解決復(fù)雜的任務(wù),即第二類任務(wù)(Evans, 2010)。
在樣本研究中,研究者確認(rèn)多樣化推理樣本包含各種推理路徑以及語言模板,這一點也可以在細(xì)化的學(xué)生模型中觀察到。這與 Wang 等人(2022b);Zelikman 等人(2022);Huang 等人(2022)的成果類似,多樣化推理路徑被生成并被邊緣化以找到最優(yōu)答案。多樣化推理也與 Yoo 等人(2021)有相似之處,后者利用大模型語言模型的生成能力,合成的樣本來增加訓(xùn)練數(shù)據(jù)。
實驗結(jié)果
下表將思維鏈微調(diào)方法的學(xué)生模型,與現(xiàn)有的對下游任務(wù)不敏感的方法 —— 零樣本學(xué)習(xí)(Kojima 等人,2022)以及標(biāo)準(zhǔn)的零樣本 prompt 和沒有任何推理的微調(diào)方法進(jìn)行對比,并記錄了準(zhǔn)確率。
思維鏈微調(diào)在相同的任務(wù)中性能明顯更突出,這顯示出使用較小的模型比零樣本思維鏈方法收益更大。
上表還顯示,思維鏈微調(diào)對小模型非常有效。同樣地,本文還發(fā)現(xiàn)思維鏈微調(diào)在很多任務(wù)中的表現(xiàn)優(yōu)于 vanilla 微調(diào),如上表所示。
下表顯示,多樣化的推理可以顯著提高使用思維鏈微調(diào)的學(xué)生模型的性能。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48980 -
語言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10303 -
大模型
+關(guān)注
關(guān)注
2文章
2516瀏覽量
2944
原文標(biāo)題:有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論