【導語】幾周前,XLNet 團隊發布了新型預訓練語言模型 XLNet,這個新模型在各項基準測試中都優于谷歌之前發布的BERT模型,其中模型XLNet-Large 的數據量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰?
這次 XLnet 團隊進行了一次對比實驗,為了確保對比的公正性,在對比實驗中作者采用相同的環境和配置,相同的訓練數據,并確保在 BERT 和 XLNet 兩個模型的訓練方法中,幾乎每個超參數(hyperparameter)都是相同的,這些超參數都是由 BERT作者發布,并在BERT中使用的。即是說,這些超參數是為BERT模型設計選擇的,很可能是針對BERT最優化的,而非XLNet。具體超參數設置如下(兩個模型的超參數完全相同):
Batch-size: 256
訓練步數:1M
優化器:Adam,學習率 1e-4,warmup 1萬,線性衰減
訓練語料庫:Wikipedia + BooksCorpus,在處理Wikipedia時使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語料庫僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓練數據略少于BERT。
模型結構參數:24層,1024個隱層,16 heads
微調(finetuning)超參數搜索空間
此外,作者還修改了一些數據相關的實現細節,以便與BERT模型進行一對一的比較。
在之前的實驗中,預訓練環節,未被mask的token無法看到分類token CLS和分隔token SEP,而現階段的實現中可以看到了,與BERT模型保持一致。
在微調環節,與BERT一樣,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。
另外,我們考慮了BERT模型的三種變體,并報告了各個單獨任務的最佳微調結果。三種變體如下:
模型1(Model-I):BERT 作者發布的原始BERT模型
模型2(Model-II):同樣來自作者的中文全詞覆蓋模型
模型3(Model-III):由于考慮到下句預測(NSP)可能會影響表現,我們使用BERT已發布的代碼針對沒有NSP loss的新模型進行了預訓練
注意:由于通過不同變體可以獲得各個任務的最佳表現,以上設置也許會讓BERT模型更占優勢。
GLUE 和 SQuAD上的開發設置結果,及 RACE 上的測試設置結果如下(并未使用數據增強、集成或多任務學習):
不同模型對比。XLNet-Large (as in paper)所使用的訓練數據更多一些,batch size也稍大。BERT模型,針對每個數據集我們只報告3個變體中微調最優的結果。
表格中有些觀測結果非常有趣:
使用相同的數據,以及幾乎完全相同的訓練方法來訓練時,針對所有數據集,XLNet都以相當的優勢勝過了BERT模型。
投入10倍多數據(對比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小于在11個基準測試中將其中8個從BERT模型換成XLNet模型的性能提升。
在某些基準測試(比如CoLA和MRPC)中,使用較少數據訓練的模型,其表現要優于使用較多數據訓練的模型。
我們相信,從以上結果中我們也許可以得到一些結果了。
XLNet的性能提高了:觀測結果1與我們早期基于基礎模型的對比實驗結果一致,證明在指定相同的訓練條件時,XLNet模型要優于BERT模型。
XLNet-Large可以優化到更佳:觀測結果2與觀測結果3似乎表明,我們之前發布的XLNet-Large(使用更多數據訓練)并沒有充分利用數據規模。因此,我們會繼續研究相關方法,正確擴展使用XLNet模型進行語言預訓練的規模。根據目前有限的觀測結果,我們推測以下訓練細節可能發揮著重要作用:
數據相關:數據規模、數據來源、數據清洗、數據編碼、數據格式化
優化相關:學習率(以及計劃)、batch size、訓練步驟數、優化器
重要的是:這些超參數可能彼此有高階交互效果。
Facebook AI近期 GLUE 排行榜,可能也說明了訓練細節的重要性。
總之,本實驗將算法/模型的影響,與類似訓練細節、大型計算及大數據這樣的其他因素明確分離開來。根據以上結果,XLNet 團隊認為:算法與模型至少是與其他因素同等重要的,它們很可能都是實現自然語言理解最終目標所必需的條件。
-
代碼
+關注
關注
30文章
4788瀏覽量
68617 -
語言模型
+關注
關注
0文章
524瀏覽量
10277 -
數據集
+關注
關注
4文章
1208瀏覽量
24703
原文標題:XLNet:公平PK,BERT你已經被超過!
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論