概覽
市面上的標題黨往往會采用夸張的文字,例如:ChatGPT被淘汰,AutoGPT來襲。但是對于行業內的人來說,這種標題很明顯是標題黨。這兩個模型都是基于GPT-3或者GPT-4的技術,它們在技術上本質上沒有太大的區別。
雖然GPT模型在自然語言處理領域中表現出色,但是它們仍然存在一些問題。例如,GPT模型的自回歸設計導致它在生成新單詞或短語時需要等待整個序列生成完成,這樣的過程顯然會減緩生成速度。
由于這些問題,一些研究人員開始探索非自回歸模型的設計,這種方法可以提高生成速度。
但非自回歸模型的輸出結果可能會出現不連貫的情況,這種情況需要更多的研究和解決方案。
總之,非自回歸模型是一種很有前途的技術,可以成為未來顛覆GPT的重要技術之一。雖然這些方法仍然需要更多的研究和開發,但是應該持續關注它們的發展。
三種文本生成方式
自回歸(AR)
生成模型基于從左到右的輸出文本,其中每個標記yt是基于輸入文本X和前面的標記y
非自回歸(NAR)
與AR模型相比,文本生成模型同時預測輸出文本中的每個標記,而不對前向或后向標記依賴進行建模。其中每個標記yt僅根據輸入文本X進行預測。獨立性假設使NAR生成過程可并行化,從而顯著加快了推理速度。然而,在沒有token依賴的情況下,NAR模型的生成質量低于AR模型。
半自回歸(Semi-NAR)
半NAR生成在AR和NAR生成之間形式化,其中每個標記yt以輸入文本X和輸出文本Y的可見部分Yct為條件。
本文主要關注NAR方法,并同時考慮文本生成模型的有效性和效率。
一種非自回歸的預訓練方法
本文介紹的方法ELMER是基于Transformer編碼器-解碼器架構構建的。解碼器和編碼器都由多個堆疊組成,每個層包含多個子層(例如,多頭自注意力和前饋網絡)。與原始Transformer解碼器自回歸生成文本不同,模型使用NAR方式同時生成標記。給定一對輸入-輸出文本〈X,Y〉,X被饋送到編碼器中并被處理為隱藏狀態S = 〈s1,...,sn〉。然后將一系列“[MASK]”標記序列饋送到NAR解碼器中以并行生成輸出文本Y中的每個標記。
提前退出機制
通常情況下,大多數NAR模型只在最后一層同時預測token,因此,token預測不知道其他位置生成的token。為了解決這個問題,ELMER在不同層生成token。上層token的生成可以依賴于從左側和右側生成的下層token。通過這種方式,模型可以明確地學習來自不同層標記之間的依賴關系,并且在NAR解碼中享受完全的并行性,如上圖所示。如果在較低層生成token時有足夠的置信度,則允許模型在該層退出并進行預測,而不經過上層。
層排列預訓練
與大多數先前工作專注于為特定任務(如翻譯)設計小規模NAR模型不同,ELMER使用大規模語料庫對通用大規模PLM進行預訓練。這使得ELMER能夠適應各種下游任務。
首先將損壞的文本輸入編碼器,然后使用上述LPLM以NAR方式由解碼器重建原始文本來訓練模型。主要采用兩種有用的文檔損壞方法:
洗牌:首先將原文按照句號分成句子,然后對這些句子進行隨機洗牌。
文本填充:基于打亂的文本,從泊松分布(λ = 3)中抽取長度的15%跨度進行采樣。在BART之后,每個span都被替換為單個“[MASK]” token,模型可以學習應該預測一個span中的多少個token。
下游微調
預訓練模型可用于微調各種下游文本生成任務。在微調階段,可以使用小規模和特定任務的數據集,精確估計每個token的輸出層。在這里主要考慮兩種提前停止方式,即硬提前停止和軟提前停止。
硬提前退出是最直接的方法,它通過計算每個標記的預測置信度,并設置一個閾值來決定是否提前退出。如果某個標記的預測置信度低于閾值,則不會進行提前退出。
軟提前退出則是一種更加靈活的方法,它允許模型在生成文本時動態地調整每個標記的預測置信度閾值。具體來說,在軟提前退出中,模型會根據當前已經生成的文本內容和上下文信息來動態地調整每個標記的預測置信度閾值。這種方法可以使得模型更加靈活地適應不同的文本生成任務,并且可以在不同任務之間共享已經學習到的知識。
比較
雖然效果上還完全比不上自回歸,但一旦這個方向成熟,從效率上會徹底顛覆現在的GPT系列模型。
引用
https://arxiv.org/pdf/2210.13304.pdf
審核編輯 :李倩
-
模型
+關注
關注
1文章
3279瀏覽量
48970 -
GPT
+關注
關注
0文章
354瀏覽量
15446
原文標題:引用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論