在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種非自回歸的預訓練方法

深度學習自然語言處理 ? 來源:無數據不智能 ? 2023-04-27 09:58 ? 次閱讀

概覽

市面上的標題黨往往會采用夸張的文字,例如:ChatGPT被淘汰,AutoGPT來襲。但是對于行業內的人來說,這種標題很明顯是標題黨。這兩個模型都是基于GPT-3或者GPT-4的技術,它們在技術上本質上沒有太大的區別。

雖然GPT模型在自然語言處理領域中表現出色,但是它們仍然存在一些問題。例如,GPT模型的自回歸設計導致它在生成新單詞或短語時需要等待整個序列生成完成,這樣的過程顯然會減緩生成速度。

3bccec08-e49d-11ed-ab56-dac502259ad0.png

由于這些問題,一些研究人員開始探索非自回歸模型的設計,這種方法可以提高生成速度。

但非自回歸模型的輸出結果可能會出現不連貫的情況,這種情況需要更多的研究和解決方案。

總之,非自回歸模型是一種很有前途的技術,可以成為未來顛覆GPT的重要技術之一。雖然這些方法仍然需要更多的研究和開發,但是應該持續關注它們的發展。

三種文本生成方式

自回歸(AR)

生成模型基于從左到右的輸出文本,其中每個標記yt是基于輸入文本X和前面的標記y

非自回歸(NAR)

與AR模型相比,文本生成模型同時預測輸出文本中的每個標記,而不對前向或后向標記依賴進行建模。其中每個標記yt僅根據輸入文本X進行預測。獨立性假設使NAR生成過程可并行化,從而顯著加快了推理速度。然而,在沒有token依賴的情況下,NAR模型的生成質量低于AR模型。

半自回歸(Semi-NAR)

半NAR生成在AR和NAR生成之間形式化,其中每個標記yt以輸入文本X和輸出文本Y的可見部分Yct為條件。

本文主要關注NAR方法,并同時考慮文本生成模型的有效性和效率。

一種非自回歸的預訓練方法

3bdffba4-e49d-11ed-ab56-dac502259ad0.png

本文介紹的方法ELMER是基于Transformer編碼器-解碼器架構構建的。解碼器和編碼器都由多個堆疊組成,每個層包含多個子層(例如,多頭自注意力和前饋網絡)。與原始Transformer解碼器自回歸生成文本不同,模型使用NAR方式同時生成標記。給定一對輸入-輸出文本〈X,Y〉,X被饋送到編碼器中并被處理為隱藏狀態S = 〈s1,...,sn〉。然后將一系列“[MASK]”標記序列饋送到NAR解碼器中以并行生成輸出文本Y中的每個標記。

提前退出機制

通常情況下,大多數NAR模型只在最后一層同時預測token,因此,token預測不知道其他位置生成的token。為了解決這個問題,ELMER在不同層生成token。上層token的生成可以依賴于從左側和右側生成的下層token。通過這種方式,模型可以明確地學習來自不同層標記之間的依賴關系,并且在NAR解碼中享受完全的并行性,如上圖所示。如果在較低層生成token時有足夠的置信度,則允許模型在該層退出并進行預測,而不經過上層。

層排列預訓練

與大多數先前工作專注于為特定任務(如翻譯)設計小規模NAR模型不同,ELMER使用大規模語料庫對通用大規模PLM進行預訓練。這使得ELMER能夠適應各種下游任務。

首先將損壞的文本輸入編碼器,然后使用上述LPLM以NAR方式由解碼器重建原始文本來訓練模型。主要采用兩種有用的文檔損壞方法:

洗牌:首先將原文按照句號分成句子,然后對這些句子進行隨機洗牌。

文本填充:基于打亂的文本,從泊松分布(λ = 3)中抽取長度的15%跨度進行采樣。在BART之后,每個span都被替換為單個“[MASK]” token,模型可以學習應該預測一個span中的多少個token。

下游微調

預訓練模型可用于微調各種下游文本生成任務。在微調階段,可以使用小規模和特定任務的數據集,精確估計每個token的輸出層。在這里主要考慮兩種提前停止方式,即硬提前停止和軟提前停止。

硬提前退出是最直接的方法,它通過計算每個標記的預測置信度,并設置一個閾值來決定是否提前退出。如果某個標記的預測置信度低于閾值,則不會進行提前退出。

軟提前退出則是一種更加靈活的方法,它允許模型在生成文本時動態地調整每個標記的預測置信度閾值。具體來說,在軟提前退出中,模型會根據當前已經生成的文本內容和上下文信息來動態地調整每個標記的預測置信度閾值。這種方法可以使得模型更加靈活地適應不同的文本生成任務,并且可以在不同任務之間共享已經學習到的知識。

比較

雖然效果上還完全比不上自回歸,但一旦這個方向成熟,從效率上會徹底顛覆現在的GPT系列模型。

3bfd866a-e49d-11ed-ab56-dac502259ad0.png

引用

https://arxiv.org/pdf/2210.13304.pdf

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48970
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15446

原文標題:引用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種新的記憶多項式失真器

    一種新的記憶多項式失真器摘要:提出了一種新的記憶多項式失真器,對寬帶功率放大器進行線性化.該方法主要利用
    發表于 08-08 09:52

    優化神經網絡訓練方法有哪些?

    優化神經網絡訓練方法有哪些?
    發表于 09-06 09:52

    介紹XLNet的原理及其與BERT的不同點

    1、什么是XLNet?  首先,XLNet是個類似于bert的模型,而不是個完全不同的模型。但它是個非常有前途和潛力的。總之,XLNet是一種廣義的
    發表于 11-01 15:29

    研究人員提出一種基于哈希的二值網絡訓練方法 比當前方法的精度提高了3%

    程健研究員團隊最近提出了一種基于哈希的二值網絡訓練方法,揭示了保持內積哈希和二值權重網絡之間的緊密關系。
    的頭像 發表于 02-08 15:38 ?5208次閱讀

    微軟在ICML 2019上提出了個全新的通用訓練方法MASS

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的訓練方法:屏蔽序列到序列訓練(MASS: Masked Sequence to Sequence Pre-traini
    的頭像 發表于 05-11 09:19 ?3512次閱讀
    微軟在ICML 2019上提出了<b class='flag-5'>一</b>個全新的通用<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>MASS

    新的訓練方法——MASS!MASS訓練幾大優勢!

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的訓練方法:屏蔽序列到序列訓練(MASS: Masked Sequence to Sequence Pre-traini
    的頭像 發表于 05-11 09:34 ?7101次閱讀
    新的<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>——MASS!MASS<b class='flag-5'>預</b><b class='flag-5'>訓練</b>幾大優勢!

    檢索增強型語言表征模型訓練

    如果有一種訓練方法可以 顯式地 獲取知識,如引用額外的大型外部文本語料庫,在不增加模型大小或復雜性的情況下獲得準確結果,會怎么樣?
    的頭像 發表于 09-27 14:50 ?2023次閱讀

    一種側重于學習情感特征的訓練方法

    transformers編碼表示)的基礎上,提岀了一種側重學習情感特征的訓練方法。在目標領域的練階段,利用情感詞典改進了BERT的
    發表于 04-13 11:40 ?4次下載
    <b class='flag-5'>一種</b>側重于學習情感特征的<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>

    現代交互技術下的兒童語言表達訓練方法

    現代交互技術下的兒童語言表達訓練方法
    發表于 06-27 11:27 ?3次下載

    ELMER: 高效強大的回歸訓練文本生成模型

    每個單詞都依賴于輸入文本與之前生成的單詞。回歸生成模型只建模了前向的單詞依賴關系,依次生成的結構也使得回歸模型難以并行化。目前大部分
    的頭像 發表于 03-13 10:39 ?1441次閱讀

    基礎模型監督訓練的數據之謎:大量數據究竟是福還是禍?

    。然而,在監督訓練中,是否數據越多越好?數據增廣是否始終有效?華為諾亞方舟實驗室與香港科技大學的研究團隊近期發現: 主流監督
    的頭像 發表于 07-24 16:55 ?579次閱讀
    基礎模型<b class='flag-5'>自</b>監督<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的數據之謎:大量數據究竟是福還是禍?

    基于生成模型的訓練方法

    with Deep Generative Models,我認為是個挺強挺有趣的監督方面的工作。DreamTeacher 用于從訓練的生成網絡向目標圖像 Backbone 進行知識蒸餾,作為
    的頭像 發表于 08-11 09:38 ?1241次閱讀
    基于生成模型的<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>

    混合專家模型 (MoE)核心組件和訓練方法介紹

    隨著 Mixtral 8x7B (announcement, model card) 的推出,一種稱為混合專家模型 (Mixed Expert Models,簡稱 MoEs
    的頭像 發表于 01-13 09:37 ?1351次閱讀
    混合專家模型 (MoE)核心組件和<b class='flag-5'>訓練方法</b>介紹

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且在效率上更勝籌。
    的頭像 發表于 02-29 17:37 ?828次閱讀

    ai大模型訓練方法有哪些?

    AI大模型訓練方法個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統的范圍。 數據增強:通過旋轉
    的頭像 發表于 07-16 10:11 ?1653次閱讀
    主站蜘蛛池模板: 视频三区| 欧美日本一区二区| 天天搞夜夜爽| 日日夜夜操天天干| 久久精品国波多野结衣| 狠狠干夜夜草| 免费在线视频播放| 色吧综合网| 一级毛片免费全部播放| 性欧美精品久久久久久久| 手机在线色| 看日本黄色大片| 成年大片免费视频播放手机不卡| 99久久综合精品免费| 天天摸天天| 在线观看视频免费| 男女互插小说| 网友偷自拍原创区| 免费在线黄网站| 成人影院久久久久久影院| 午夜国产高清精品一区免费| 濑亚美莉vs黑人欧美视频| 色爱区综合激情五月综合激情| 男女交性视频播放视频视频| 婷婷丁香亚洲| 六月婷婷激情| 99久久久精品| 久久福利免费视频| 亚洲天堂一区二区三区| 校园 春色 欧美 另类 小说| 欧美精品二区| 夜夜爽夜夜操| 在线视频免费视频网站| 国产叼嘿视频网站在线观看 | 欧美深深色噜噜狠狠yyy| 亚洲地址一地址二地址三| 欧洲无线区一二区| ts人妖在线观看| 成人午夜亚洲影视在线观看| 免费视频性| 欧美三级视频网站|