古风名字,小说阅读网,完美世界有声小说

【導語】幾周前，XLNet 團隊發布了新型預訓練語言模型 XLNet，這個新模型在各項基準測試中都優于谷歌之前發布的BERT模型，其中模型XLNet-Large 的數據量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰？

這次 XLnet 團隊進行了一次對比實驗，為了確保對比的公正性，在對比實驗中作者采用相同的環境和配置，相同的訓練數據，并確保在 BERT 和 XLNet 兩個模型的訓練方法中，幾乎每個超參數（hyperparameter）都是相同的，這些超參數都是由 BERT作者發布，并在BERT中使用的。即是說，這些超參數是為BERT模型設計選擇的，很可能是針對BERT最優化的，而非XLNet。具體超參數設置如下（兩個模型的超參數完全相同）：

Batch-size: 256

訓練步數：1M

優化器：Adam，學習率 1e-4，warmup 1萬，線性衰減

訓練語料庫：Wikipedia + BooksCorpus，在處理Wikipedia時使用了與BERT repo相同的工具，但出于某種原因，我們的Wiki語料庫僅有20億單詞，BERT使用了25億單詞，因此XLNet的訓練數據略少于BERT。

模型結構參數：24層，1024個隱層，16 heads

微調（finetuning）超參數搜索空間

此外，作者還修改了一些數據相關的實現細節，以便與BERT模型進行一對一的比較。

在之前的實驗中，預訓練環節，未被mask的token無法看到分類token CLS和分隔token SEP，而現階段的實現中可以看到了，與BERT模型保持一致。

在微調環節，與BERT一樣，用“BERT格式”取代了普通的 XLNet格式，即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。

另外，我們考慮了BERT模型的三種變體，并報告了各個單獨任務的最佳微調結果。三種變體如下：

模型1（Model-I）：BERT 作者發布的原始BERT模型

模型2（Model-II）：同樣來自作者的中文全詞覆蓋模型

模型3（Model-III）：由于考慮到下句預測（NSP）可能會影響表現，我們使用BERT已發布的代碼針對沒有NSP loss的新模型進行了預訓練

注意：由于通過不同變體可以獲得各個任務的最佳表現，以上設置也許會讓BERT模型更占優勢。

GLUE 和 SQuAD上的開發設置結果，及 RACE 上的測試設置結果如下（并未使用數據增強、集成或多任務學習）：

不同模型對比。XLNet-Large （as in paper）所使用的訓練數據更多一些，batch size也稍大。BERT模型，針對每個數據集我們只報告3個變體中微調最優的結果。

表格中有些觀測結果非常有趣：

使用相同的數據，以及幾乎完全相同的訓練方法來訓練時，針對所有數據集，XLNet都以相當的優勢勝過了BERT模型。

投入10倍多數據（對比XLNet-Large-wikibooks與XLNet-Large）的性能提升，要小于在11個基準測試中將其中8個從BERT模型換成XLNet模型的性能提升。

在某些基準測試（比如CoLA和MRPC）中，使用較少數據訓練的模型，其表現要優于使用較多數據訓練的模型。

我們相信，從以上結果中我們也許可以得到一些結果了。

XLNet的性能提高了：觀測結果1與我們早期基于基礎模型的對比實驗結果一致，證明在指定相同的訓練條件時，XLNet模型要優于BERT模型。

XLNet-Large可以優化到更佳：觀測結果2與觀測結果3似乎表明，我們之前發布的XLNet-Large（使用更多數據訓練）并沒有充分利用數據規模。因此，我們會繼續研究相關方法，正確擴展使用XLNet模型進行語言預訓練的規模。根據目前有限的觀測結果，我們推測以下訓練細節可能發揮著重要作用：

數據相關：數據規模、數據來源、數據清洗、數據編碼、數據格式化

優化相關：學習率（以及計劃）、batch size、訓練步驟數、優化器

重要的是：這些超參數可能彼此有高階交互效果。

Facebook AI近期 GLUE 排行榜，可能也說明了訓練細節的重要性。

總之，本實驗將算法/模型的影響，與類似訓練細節、大型計算及大數據這樣的其他因素明確分離開來。根據以上結果，XLNet 團隊認為：算法與模型至少是與其他因素同等重要的，它們很可能都是實現自然語言理解最終目標所必需的條件。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4788

瀏覽量
68617
語言模型

語言模型

+關注

關注
0

文章
524

瀏覽量
10277
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24703

原文標題：XLNet：公平PK，BERT你已經被超過！

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

U盤免費檢測軟件_閃存盤測試工具v2.09綠色版【明明白白買U盤】

檢測軟件_閃存盤測試工具v2.09綠色版【明明白白買U盤】</strong></font><br/><

發表于 04-13 12:35

LabVIEW入門與提高范例教程

`這個年代上個圖，看個明明白白比什么都重要，只有眼睛看到的才會稍微有點真實感，你下載了才會真的覺得真實，不參假！~~由于論壇上傳附件有要求，只能把他分為四個部分，請諒解謝謝[hide][/hide]`

發表于 10-21 10:17

太厲害了，終于有人能把IGBT講得明明白白

太厲害了，終于有人能把IGBT講得明明白白資料分享來自網絡資源

發表于 09-22 22:14

介紹XLNet的原理及其與BERT的不同點

1、什么是XLNet？　　首先，XLNet是一個類似于bert的模型，而不是一個完全不同的模型。但它是一個非常有前途和潛力的。總之，XLNet是一種廣義的自回歸預訓練方法。　　那么，什

發表于 11-01 15:29

了解畫面比例，明明白白選購投影幕

了解畫面比例，明明白白選購投影幕　隨著時代的發展，投影幕已經成為了不少人構建家庭影院必定選購的商品。可是面對不同比例的投影幕，比

發表于 02-10 10:33 ?602次閱讀

明明白白C指針

發表于 09-04 20:51 ?0次下載

明明白白學C#（大學霸）

這本C#教程從入門到精通，非常適合國人的學習習慣，能夠幫助您在最短時間內掌握C#學習，簡潔明了，如果有需要的話，大家可以下載了

發表于 05-06 15:06 ?0次下載

PSoC 4XX8 BLE 4.2系列數據手冊

很不錯的psoc4數據手冊，明明白白，清清楚楚。

發表于 12-10 13:55 ?11次下載

你是嵌入式硬件設計的大神還是小白？

提到“嵌入式”，想必各位攻城獅都不會陌生，今兒不管您水平幾何，咱們一起聊聊這“嵌入式”，大神&小白，您自個兒就明明白白。

發表于 09-18 17:51 ?3386次閱讀

碾壓Bert?“屠榜”的XLnet對NLP任務意味著什么

張俊林新作，一文帶你剖析XLnet的運行機制，與BERT對比異同。

發表于 06-25 14:11 ?2506次閱讀

XLNet和Bert比，有什么不同？要進行改進嗎？

本文首先講講我對XLNet和Bert比，有什么異同？有什么模型方面的改進？的理解

發表于 07-26 14:39 ?5139次閱讀

<b class='flag-5'>XLNet</b>和<b class='flag-5'>Bert</b>比，有什么不同？要進行改進嗎？

語言建模中XLNet比BERT好在哪里

XLNet可能會改變語言建模，這就是為什么它是任何NLP從業者的重要補充。在本文中，我們將討論XLNet背后的原理，它使它比BERT更好。為了更好地理解它，我們還將研究它之前的相關技術。

發表于 04-20 09:30 ?2571次閱讀

什么是XLNet，它為什么比BERT效果好

介紹最基本的XLNet的原理，理解XLNet和BERT的直覺上的不同點。作者：Xu LIANG編譯：ronghuaiyang首發：AI公園公眾號

發表于 12-10 19:10 ?706次閱讀

基于serialX串口驅動移植freemodbus

之前，筆者寫過多篇 serialX 的文章，已經把它的原理和理念完完全全明明白白講了，包括它的優勢以及使用它需要注意的方面和可能遇到的問題。

發表于 10-13 14:54 ?844次閱讀

為什么國外喜歡使用lora？看完你就明明白白!

近年來,隨著物聯網的快速發展,各種無線通信技術也得到了廣泛應用。其中,LoRa技術以其獨特的優勢脫穎而出,在歐美等發達國家和地區備受青睞。 LoRa是一種基于擴頻技術的超遠距離無線通信方案,由Semtech公司開發,并由LoRa聯盟制定開放標準LoRaWAN。它工作在免費的ISM頻段,如歐洲的433MHz和868MHz,美國的915MHz等,無需申請昂貴的頻譜資源。 LoRa最大的特點就是超低功耗和超長距離。得益于擴頻技術,LoRa發射功率可低至20mW,電池供電的終端設備可以工作5-10年之久。傳

發表于 07-02 09:06 ?553次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

XLNet vs BERT，對比得明明白白！

評論