人工智能在模仿人類的道路上,Get 到了一項精髓 —— 偷懶。
2018 年 4 月,OpenAI 公司舉辦了首屆針對 AI 的強化學習競賽。這場比賽讓 AI 們來玩 NES 平臺上的《刺猬索尼克》單機游戲。舉辦方希望 AI 能夠在學習游戲技巧之后,能夠擁有在其他地圖上自覺找到最佳通關方法的能力,以此來評估強化算法的泛化能力。
結果 AI 好像對游戲有著一套自己的理解,它們繞過研究員預期的目標和設定,通過不斷 “卡 Bug” 的方式找到了通關的 “捷徑”。
谷歌 DeepMind AI 項目的研究人員維多利亞?克拉科夫納(Victoria Krakovna)在其他游戲中也發現了這種現象。在《海岸賽艇》里,AI 操縱的船只為了獲得更高分數,不斷利用 Bug 來撞擊獎勵而忘了要抵達終點。甚至在玩《俄羅斯方塊》這種小游戲時,AI 也找到了終極密碼:只要游戲暫停就永不會輸……
在最后,OpenAI 的強化學習競賽雖然沒有認可 “走捷徑” 獲勝的 AI,但研究人員還是認為:“AI 展示了它如何在沒有人類介入的情況下贏得游戲勝利,出乎意料并極富有創造性,這可能完全顛覆人類對游戲如何運行的理解。”
AI 是如何學會走捷徑的?
針對這一現象,北京大學王選計算機研究所和北京大學計算語言學教育部重點實驗室的研究團隊在 arXiv 上發表了研究論文《為什么機器閱讀理解模型學會走捷徑》 (Why Machine Reading Comprehension Models Learn Shortcuts)。
機器閱讀理解(Machine Reading Comprehension, MRC)為自然語言處理(NLP)的核心任務之一,也是評價模型理解文本能力的重要指標,可以將其視為一種句子關系匹配任務。通常任務是讓機器閱讀給定的一篇文章并回答關于該文章的一個問題。其常見任務形式有四種:完形填空、多想選擇、片段抽取和自由作答。
完形填空即將文章中的某些單詞隱去,讓模型根據上下文判斷被隱去的單詞最可能是哪個;多項選擇是指讓模型從多個備選答案中選擇一個最有可能是正確答案的選項;片段抽取是讓模型從文章中抽取連續的單詞序列;自由作答則是讓模型自主生成一個單詞序列,使之作為問題的答案,與片段抽取任務不同,自由作答的序列并不局限于文章中給定的句子。
論文中提到,許多 MRC 模型繞過了常規的推理路徑,通過 “走捷徑” 給出了出人意料的答案。但這些答案往往無法真正解決問題,無法幫助人類達到預期目標。為了解決這一問題,該團隊將關注點聚焦在為什么這些算法模型學會了 “走捷徑”。
研究者認為,訓練數據庫中的大量 “捷徑” 問題是導致模型過渡依賴 “偷懶行為” 的 “罪魁禍首”。
北大研究者設計了一個經過標注的全新數據集,在這個數據集中,每個問題都會有 “捷徑式” 和 “挑戰式” 兩個版本的答案。他們還進一步提出了兩種新的研究方法來量化分析在 “捷徑模式” 和 “挑戰模式” 下學習的難易程度,并試圖揭示在這兩種不同模式下的固有學習機制。
研究人員將能夠 “釋義”( Paraphrasing )作為更為復雜和高級的答案標準,將那些只有關鍵字提取而沒有任何上下文理解和推理的答案定義為 “捷徑” 版答案。
研究人員發現,在訓練數據集中高占比的 “捷徑模式” 數據使得模型更加依賴 “偷懶”,致使其之后的訓練中無法提升更為復雜的推理技巧,阻礙了模型去學習 “釋義” 過程由此解決更具挑戰性的問題。文章表明,如果訓練集中 “挑戰版” 問題足夠多的話,算法模型不但能吸收 “挑戰版” 問題,同時還能正確回答 “捷徑版” 的問題。
論文表示,在早期階段,模型通常會用最簡單的方法來擬合訓練數據。“走捷徑” 所消耗的資源最少,因此這種路徑會成為優先選項。當模型發現 “偷懶” 可以解決大部分問題時,其余問題便無法再激勵 AI 去探索更為復雜的解決方法。
研究者認為,導致 AI 習慣性偷懶的原因,除了 NLP 架構的設計問題之外,也有可能是訓練過程中標準優化和資源保護的結果,此外,讓 AI 在有限時間內迅速輸出答案也會使給其造成 “壓力”。
因此,人們可以通過修改 NLP 架構,讓 AI 優先考慮更具挑戰的數據和問題,并且再數據預處理領域也需要將數據中的 “捷徑” 考慮進去。
原文標題:AI竟也學會偷懶?北大團隊:數據集“走捷徑”問題占比太高
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
31338瀏覽量
269749 -
人工智能
+關注
關注
1793文章
47539瀏覽量
239394
原文標題:AI竟也學會偷懶?北大團隊:數據集“走捷徑”問題占比太高
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論