在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

預訓練語言模型設計的理論化認識

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:潘小小 ? 2020-11-02 15:09 ? 次閱讀

在這篇文章中,我會介紹一篇最新的預訓練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經典的預訓練語言模型(MaskedLanguage Model, Permuted Language Model)統一到一個框架中,并且基于它們的優勢和缺點,取長補短,提出了一個新的預訓練語言模型----MPNet,其混合了MLM和PLM各自的優勢,達到了比兩者更好的效果,在Natural Language Understanding和NaturalLanguageGeneration任務中,都取得了較好的結果。實驗表明MPNet在大量下游任務中超越了MLM和PLM,從而證明了pretrain方法中的2個關鍵點:

被預測的token之間的依賴關系 (MPNet vs MLM)

整個序列的位置信息 (MPNet vs PLM)

MPNet: Masked and Permuted Pre-training for Language Understanding(https://arxiv.org/pdf/2004.09297.pdf)

【小小說】這篇論文我很喜歡,讀下來有一種打通了任督二脈一般行云流水的感覺。在本文中,我會從BERT和XLNet的統一理論框架講起,然后引出作者如何得到MPNet這一訓練方式,接著會介紹一下作者具體實現上用到的方法。希望本文可以讓你對預訓練語言模型的設計有一個更加理論化的認識。

1. BERT和XLNet各自的優缺點

?既然是從BERT和XLNet到MPNet,那么當然是要先從這兩者講起。大家對BERT應該比較熟悉,它是劃時代的工作,可以說從BERT開始,NLP領域正式進入了“預訓練模型”的時代。而XLNet是隨后的重磅之作,在這一節中,我們先來回顧一下它們。?

「BERT」: Masked Language Model , 使用了雙邊的context信息,但是忽略了masked token之間的依賴關系

「XLNet」: Permuted Language Model , 保留了masked token之間的依賴關系,但是預測的時候每個token只能看到permuted sequence中的前置位的token的信息,不能看到所有token的信息。(p.s. 不知道XLNet的寶寶辛苦去復習 【論文串講】從GPT和BERT到XLNet )

作者分別從input和output兩個角度總結了兩者的優缺點分別存在的地方:

「Input Discrepancy」: 在Natural Language Understanding的任務中,模型可以見到完整的input sentence,因此要求在預訓練階段,input要盡可能輸入完整的信息

MLM中,token的語言信息是不完整的,不過位置信息是保留的(通過position embedding,p.s. 想具體了解如何通過position embedding保留的,請移步參考 【經典精讀】Transformer模型深度解讀 中"使用Positional Encoding帶來的獨特優勢"這部分的內容)

PLM中,每個被預測的token只能“看”到被打亂的序列中位于它自己前面的token,而不能像MLM一樣“看”到兩側的token。

「Output Dependency」:

MLM中,輸出的token,即在input端被mask掉的token,是「互相獨立的」。也就是說這些被mask掉的token之間是假定沒有context層面的關系的。

PLM規避了MLM中的問題,被預測的token之間也存在context層面的關系。

「總結一下就是:」

?「PLM在output dependency的問題上處理得比MLM好,但是預訓練階段和fine-tune階段之間的差異比MLM的更大。」?

2. 統一MLM和PLM的優化目標

?了解了BERT和XLNet各自的優缺點和適用的場景后,本文的作者試圖從一個統一的視角去總結這兩種預訓練模型,而這個總結,引出了后來的MPNet。?

基于以上兩點觀察,本文的作者提出了統一Masked Language Model和Permuted Language Model的想法,并且起名叫「M」asked and「P」ermuted Language Model,縮寫「MPNet」,意在取兩者之長,避兩者之短。

2.1. 統一優化目標的提出

MLM: 由于Masked Language Model中的獨立性假設“每個被mask的位置的token之間是彼此獨立的”,我們可以換一種方式看待Masked Language Model: 把Masked tokens統一挪到序列的末尾,這樣做并不會改變模型的任何部分,只是我們的看待方式變了。

重新看待Masked Language Model

2. PLM: 原順序 被打亂成

,然后最右邊的兩個token 和 就被選作要預測的token。

重新看待Permuted Language Model

基于上述的討論,作者給出了統一MLM和PLM訓練目標的框架:將沒有被mask的token放在左邊,而將需要被預測的token(被mask掉的)放在右邊。

「MLM」

「PLM」

其中,是序列的其中一個permutation,表示在該permutation中的第 位,表示位置小于的所有位置。

2.2. 討論

MLM和PLM的訓練目標公式非常接近,唯一的區別在于,MLM條件概率的條件部分是 和 ; 而PLM的條件部分是,它們的區別是:

MLM比PLM多了 這個條件,也就是比PLM多了關于序列長度的信息(一個[M]就是一個位置)。

PLM比MLM多了被預測部分token之間的相關性:PLM的 是隨著預測的進行(t的變化)而動態變化的,MLM的 對于整個模型預測過程進行是恒定不變的。

3. 提出MPNet

?

基于上一節的總結,作者按照相同的思路提出了MPNet的預訓練目標

?

「a. MPNet的預訓練目標」

我們既要像MLM那樣,在預測時獲取到序列長度的信息;又要像PLM那樣,在預測后一個token時,以前面的所有token(包含前置位被預測出來的)為條件。MPNet做到了:

MPNet示意圖

(b)圖中灰色的部分是encoder端的bidirectional self-attention

(b)圖中藍色和綠色的部分分別是decoder端的two stream self-attention的content stream和query stream (two stream self-attention的具體定義請參考 【論文串講】從GPT和BERT到XLNet ),這里提一下,content stream相當于query stream右移一步。

(a)圖中黑色的線+綠色的線即對應了(b)圖中的綠色點,(a)圖中黑色的線+藍色的線即對應了(b)圖中的藍色點。

(b)圖中的行對應著query position,列對應著column position。

「b. ”位置補償“」

由于用到了Permuted Language Model的思想,所以MPNet和XLNet一樣,也要使用two-stream self-attention。想要實現預訓練目標中的 ,在實現上作者提出了“位置補償”(positioncompensation),也就是說,在預測過程的每一步,query stream和contentstream都可以看到N(N即序列長度)個token,具體結合圖中的例子來說就是,

預測 時: 已知 , , , , , , , ,

預測 時: 已知 , , , , , , , , ,

預測 時: 已知 , , , , , , , , , ,

也就是說,無論預測到哪一步, , ,

, , , 這6個位置信息都可見。我們回顧一下XLNet,作一下對比:

預測 時: 已知 , , , , , ,

預測 時: 已知 , , , , , , , ,

預測 時: 已知 , , , , , , , , , ,

可以看出,在預測 時,比MPNet少了 , ,在預測 時,比MPNet少了 。

「c. 總結」

MPNet有效性來自于它保留了更多的信息

通過上面的詳細講解,相信到這兒大家也明白了:MPNet保留的信息是BERT和XLNet的并集,第一,它利用PLM的自回歸特性,規避了MLM的獨立性假設,在預測后面token時也利用了之前預測出來的token;第二,它利用MLM建模中自帶的序列信息,規避了PLM在預測前面的token時不知道序列整體的長度的缺點。這兩點保證了MPNet完美揚長避短,因此在下游任務中完美擊敗了前兩者。

給我們的啟發

致力于彌合pre-train階段和下游任務fine-tune階段的預訓練目標,盡可能減少訓練和預測過程中信息的損失,是研究預訓練模型的重中之重,也是預訓練模型領域整體的發展方向。讀預訓練系列論文的時候一定要抓住這個核心線索去讀。

責任編輯:xj

原文標題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    121

    瀏覽量

    20869
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22037
  • 訓練模型
    +關注

    關注

    1

    文章

    36

    瀏覽量

    3822

原文標題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?1429次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    鷺島論壇數據智能系列講座第4期「訓練的基礎模型下的持續學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目
    的頭像 發表于 10-18 08:09 ?227次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?434次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?1073次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?2835次閱讀

    【大規模語言模型:從理論到實踐】- 每日進步一點點

    非常推薦大家去讀 【大規模語言模型:從理論到實踐】這本書,系統的講解了大模型的前世今生,對各個環節知識進行了普及。 今天跟我一起學習歸一
    發表于 05-31 19:54

    語言模型:原理與工程時間+小白初識大語言模型

    語言模型進行訓練,此處訓練為自然語言處理領域的
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第一階段,模型在大量的
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    Transformer架構,利用自注意力機制對文本進行編碼,通過訓練、有監督微調和強化學習等階段,不斷提升性能,展現出強大的語言理解和生成能力。 大語言
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當前技術面臨的挑戰和局限性。
    發表于 04-30 15:35

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    榜銷售TOP1的桂冠,可想大家對本書的認可和支持! 這本書為什么如此受歡迎?它究竟講了什么?下面就給大家詳細~~ 本書主要內容 本書圍繞大語言模型構建的四個主要階段——訓練、有監督
    發表于 03-11 15:16

    語言模型推斷中的批處理效應

    隨著開源訓練大型語言模型(Large Language Model, LLM )變得更加強大和開放,越來越多的開發者將大語言
    的頭像 發表于 01-04 12:32 ?636次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推斷中的批處理效應
    主站蜘蛛池模板: 日韩毛片高清免费| 久久久久久久国产精品电影| 黄色a级免费| 奇米777狠狠| 日本不卡在线视频| 欧美日a| 校园春色亚洲欧美| h网站免费在线观看| 色多多视频在线观看播放| 成人女人a毛片在线看| h视频日本| 五月天情网| www视频在线观看com| 欧美午夜性春猛xxxx| 四虎在线影院| 永久在线免费| 亚洲一本高清| 欧美色视频超清在线观看| 天天操天天透| 中文字幕有码在线视频| 韩国理论三级在线观看视频| 港台无码| 色男人在线| 天天拍拍天天爽免费视频| 欧美激情xxxx性bbbb| 午夜h| 色人阁综合| 五月天综合在线| 91久久天天躁狠狠躁夜夜| 亚洲成年网| 午夜影院免费在线观看| 轻点灬大ji巴太粗太长了爽文 | 欧美三级手机在线| 免费观看片| 五月婷婷啪啪| 一级网站片| 99精品久久99久久久久久| 国产美女一级ba大片免色| h网站免费| 狠狠综合| 亚洲资源在线观看|