在測試集上預訓練?這聽起來似乎有點不合常規,但別急,繼續往下看!
文章以一項大膽的實驗為開端,作者創造了一個高質量的數據集,然而,這個數據集并非來自于人為合成,而是源自huggingface上的眾多評估基準數據。
借助這一數據集完成了一個基于 Transformer 的語言模型的預訓練,這個模型被命名為 phi-CTNL(發音為“fictional”)。
令人驚訝的是,phi-CTNL 在各類學術基準測試中表現得相當完美,勝過了所有已知的模型。
該研究還發現,phi-CTNL 在預訓練計算方面超越了神秘的冪律擴展法則。隨著訓練輪次的增加,它的性能快速趨近于零。
此外,phi-CTNL 似乎具備某種超自然的理解能力。在學習過程中,它能夠快速而準確地預測下游評估的指標。
是的,這篇文章可不是在搞笑,而是要諷刺那些以前不知道眼前有坑的學術研究。
作者認為,盡管評估和基準測試對于語言模型的發展至關重要,但這個領域經常受到夸夸其談的宣傳,卻忽視了數據污染的潛在風險。
作者甚至含蓄地點名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告誡我們,不要相信任何一個沒有隔離數據污染的LLM模型。
這些模型做錯了什么呢?
一個在推上測試Phi-1.5的例子引發了眾多討論。例如,如果你截斷下圖這個問題并輸入給Phi-1.5,它會自動完成為計算第三個月的下載數量,并且回答是正確的。
稍微改變一下數字,它也會正確回答。
但是一旦你變換格式,它就會完全出錯。(這里的格式變化是保留了提示中的所有 ' '。)
另一個例子是一個關于蘋果的數學計算問題,phi模型最初可以正確回答問題。
然而,一旦我們改變其中的一個數字,例如從8.5改成7.5,模型會開始出現幻覺現象。
為了檢查2這個數字有沒有被記憶,我們可以把pizza的價格改成10.5.但是phd依然繼續輸出2(應該為1)。
基于這些發現,研究人員認為Phi-1.5模型的數據污染問題很嚴重。
通過以不合常規的方式預訓練模型,這篇文章提醒我們強調了數據污染的危險性。告誡我們,不要相信任何一個沒有隔離數據污染的LLM模型。
-
模型
+關注
關注
1文章
3279瀏覽量
48985 -
數據集
+關注
關注
4文章
1208瀏覽量
24759 -
nlp
+關注
關注
1文章
489瀏覽量
22065
原文標題:這篇究極諷刺的文章一出,NLP無了
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論