在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

XLNet vs BERT,對比得明明白白!

WpOh_rgznai100 ? 來源:lq ? 2019-07-27 07:14 ? 次閱讀

【導語】幾周前,XLNet 團隊發布了新型預訓練語言模型 XLNet,這個新模型在各項基準測試中都優于谷歌之前發布的BERT模型,其中模型XLNet-Large 的數據量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰?

這次 XLnet 團隊進行了一次對比實驗,為了確保對比的公正性,在對比實驗中作者采用相同的環境和配置,相同的訓練數據,并確保在 BERT 和 XLNet 兩個模型的訓練方法中,幾乎每個超參數(hyperparameter)都是相同的,這些超參數都是由 BERT作者發布,并在BERT中使用的。即是說,這些超參數是為BERT模型設計選擇的,很可能是針對BERT最優化的,而非XLNet。具體超參數設置如下(兩個模型的超參數完全相同):

Batch-size: 256

訓練步數:1M

優化器:Adam,學習率 1e-4,warmup 1萬,線性衰減

訓練語料庫:Wikipedia + BooksCorpus,在處理Wikipedia時使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語料庫僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓練數據略少于BERT。

模型結構參數:24層,1024個隱層,16 heads

微調(finetuning)超參數搜索空間

此外,作者還修改了一些數據相關的實現細節,以便與BERT模型進行一對一的比較。

在之前的實驗中,預訓練環節,未被mask的token無法看到分類token CLS和分隔token SEP,而現階段的實現中可以看到了,與BERT模型保持一致。

在微調環節,與BERT一樣,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。

另外,我們考慮了BERT模型的三種變體,并報告了各個單獨任務的最佳微調結果。三種變體如下:

模型1(Model-I):BERT 作者發布的原始BERT模型

模型2(Model-II):同樣來自作者的中文全詞覆蓋模型

模型3(Model-III):由于考慮到下句預測(NSP)可能會影響表現,我們使用BERT已發布的代碼針對沒有NSP loss的新模型進行了預訓練

注意:由于通過不同變體可以獲得各個任務的最佳表現,以上設置也許會讓BERT模型更占優勢。

GLUE 和 SQuAD上的開發設置結果,及 RACE 上的測試設置結果如下(并未使用數據增強、集成或多任務學習):

不同模型對比。XLNet-Large (as in paper)所使用的訓練數據更多一些,batch size也稍大。BERT模型,針對每個數據集我們只報告3個變體中微調最優的結果。

表格中有些觀測結果非常有趣:

使用相同的數據,以及幾乎完全相同的訓練方法來訓練時,針對所有數據集,XLNet都以相當的優勢勝過了BERT模型。

投入10倍多數據(對比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小于在11個基準測試中將其中8個從BERT模型換成XLNet模型的性能提升。

在某些基準測試(比如CoLA和MRPC)中,使用較少數據訓練的模型,其表現要優于使用較多數據訓練的模型。

我們相信,從以上結果中我們也許可以得到一些結果了。

XLNet的性能提高了:觀測結果1與我們早期基于基礎模型的對比實驗結果一致,證明在指定相同的訓練條件時,XLNet模型要優于BERT模型。

XLNet-Large可以優化到更佳:觀測結果2與觀測結果3似乎表明,我們之前發布的XLNet-Large(使用更多數據訓練)并沒有充分利用數據規模。因此,我們會繼續研究相關方法,正確擴展使用XLNet模型進行語言預訓練的規模。根據目前有限的觀測結果,我們推測以下訓練細節可能發揮著重要作用:

數據相關:數據規模、數據來源、數據清洗、數據編碼、數據格式化

優化相關:學習率(以及計劃)、batch size、訓練步驟數、優化器

重要的是:這些超參數可能彼此有高階交互效果。

Facebook AI近期 GLUE 排行榜,可能也說明了訓練細節的重要性。

總之,本實驗將算法/模型的影響,與類似訓練細節、大型計算及大數據這樣的其他因素明確分離開來。根據以上結果,XLNet 團隊認為:算法與模型至少是與其他因素同等重要的,它們很可能都是實現自然語言理解最終目標所必需的條件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4788

    瀏覽量

    68617
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24703

原文標題:XLNet:公平PK,BERT你已經被超過!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    U盤免費檢測軟件_閃存盤測試工具v2.09綠色版【明明白白買U盤】

    檢測軟件_閃存盤測試工具v2.09綠色版【明明白白買U盤】</strong></font><br/><
    發表于 04-13 12:35

    LabVIEW入門與提高范例教程

    `這個年代上個圖,看個明明白白比什么都重要,只有眼睛看到的才會稍微有點真實感,你下載了才會真的覺得真實,不參假!~~由于論壇上傳附件有要求,只能把他分為四個部分,請諒解謝謝[hide][/hide]`
    發表于 10-21 10:17

    太厲害了,終于有人能把IGBT講得明明白白

    太厲害了,終于有人能把IGBT講得明明白白資料分享來自網絡資源
    發表于 09-22 22:14

    介紹XLNet的原理及其與BERT的不同點

    1、什么是XLNet?  首先,XLNet是一個類似于bert的模型,而不是一個完全不同的模型。但它是一個非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預訓練方法。  那么,什
    發表于 11-01 15:29

    了解畫面比例,明明白白選購投影幕

    了解畫面比例,明明白白選購投影幕  隨著時代的發展,投影幕已經成為了不少人構建家庭影院必定選購的商品。可是面對不同比例的投影幕,比
    發表于 02-10 10:33 ?602次閱讀

    明明白白C指針

    發表于 09-04 20:51 ?0次下載

    明明白白學C#(大學霸)

    這本C#教程從入門到精通,非常適合國人的學習習慣,能夠幫助您在最短時間內掌握C#學習,簡潔明了,如果有需要的話,大家可以下載了
    發表于 05-06 15:06 ?0次下載

    PSoC 4XX8 BLE 4.2系列數據手冊

    很不錯的psoc4數據手冊,明明白白,清清楚楚。
    發表于 12-10 13:55 ?11次下載

    你是嵌入式硬件設計的大神還是小白?

    提到“嵌入式”,想必各位攻城獅都不會陌生,今兒不管您水平幾何,咱們一起聊聊這“嵌入式”,大神&小白,您自個兒就明明白白
    的頭像 發表于 09-18 17:51 ?3386次閱讀
    你是嵌入式硬件設計的大神還是小白?

    碾壓Bert?“屠榜”的XLnet對NLP任務意味著什么

    張俊林新作,一文帶你剖析XLnet的運行機制,與BERT對比異同。
    的頭像 發表于 06-25 14:11 ?2506次閱讀

    XLNetBert比,有什么不同?要進行改進嗎?

    本文首先講講我對XLNetBert比,有什么異同?有什么模型方面的改進?的理解
    的頭像 發表于 07-26 14:39 ?5139次閱讀
    <b class='flag-5'>XLNet</b>和<b class='flag-5'>Bert</b>比,有什么不同?要進行改進嗎?

    語言建模中XLNetBERT好在哪里

    XLNet可能會改變語言建模,這就是為什么它是任何NLP從業者的重要補充。在本文中,我們將討論XLNet背后的原理,它使它比BERT更好。為了更好地理解它,我們還將研究它之前的相關技術。
    的頭像 發表于 04-20 09:30 ?2571次閱讀

    什么是XLNet,它為什么比BERT效果好

    介紹最基本的XLNet的原理,理解XLNetBERT的直覺上的不同點。作者:Xu LIANG編譯:ronghuaiyang首發:AI公園公眾號
    的頭像 發表于 12-10 19:10 ?706次閱讀

    基于serialX串口驅動移植freemodbus

    之前,筆者寫過多篇 serialX 的文章,已經把它的原理和理念完完全全明明白白講了,包括它的優勢以及使用它需要注意的方面和可能遇到的問題。
    的頭像 發表于 10-13 14:54 ?844次閱讀

    為什么國外喜歡使用lora?看完你就明明白白!

    近年來,隨著物聯網的快速發展,各種無線通信技術也得到了廣泛應用。其中,LoRa技術以其獨特的優勢脫穎而出,在歐美等發達國家和地區備受青睞。 LoRa是一種基于擴頻技術的超遠距離無線通信方案,由Semtech公司開發,并由LoRa聯盟制定開放標準LoRaWAN。它工作在免費的ISM頻段,如歐洲的433MHz和868MHz,美國的915MHz等,無需申請昂貴的頻譜資源。 LoRa最大的特點就是超低功耗和超長距離。得益于擴頻技術,LoRa發射功率可低至20mW,電池供電的終端設備可以工作5-10年之久。傳
    的頭像 發表于 07-02 09:06 ?553次閱讀
    主站蜘蛛池模板: 在线免费观看h| 天天插天天色| 成年人毛片网站| 9966国产精品视频| 五月天亚洲婷婷| 免费成人黄色| 午夜视频h| 亚洲色图欧美色| 中文字幕一区二区三区四区五区 | 四虎永久免费地址| 上课被同桌摸下面做羞羞 | 日韩插插| 在线观看黄色x视频| 亚洲欧美7777| 成人在线色视频| 日韩一级片在线播放| 乱小说录目伦200篇将曲勒| 伊人色婷婷综在合线亚洲| 色秀视频免费网站在线观看| 国产日本特黄特色大片免费视频| 222.www免费观看| 久草色香蕉| 天天翘夜夜洗澡天天做| 亚洲人成网站在线| 国产福利乳摇在线播放| 欧美福利二区| 天天视频一区二区三区| 美女国产精品| 午夜影院18| 欧美 激情 在线| 亚洲色图久久| 一级特黄aaa免费| 直接看黄的网站| 日本免费黄视频| 97久久综合区小说区图片专区| 免费观看高清视频| 亚洲午夜久久久精品影院视色| 成人性生活免费视频| 黄色网址播放| 久久综合久久久| 色综合色综合色综合色综合|