編者按:Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas指出,合成語言數據集引起的爭議,部分源自不同研究社區間的溝通不暢,應正視合成語言數據集的價值。
在AI生態系統中,虛假語言數據集能起到什么作用嗎?(我說的“虛假語言”指的是像bAbI、CLEVR、Karthik的論文(arXiv:1506.08941)、DeepMind論文(arXiv:1710.09867)中所用的語言數據集。)基于這些數據集上的結果,聲稱各種學習架構可以“處理語言”引起了NLP社區的很多不滿。盡管很大程度上這是歷史悠久的夸大宣傳風氣所造成的惡果,我漸漸相信部分原因是兩個不同群組使用“語言數據”指代完全不同之物導致的溝通不暢。
本文關注指令遵循(instruction following)這一問題,但我覺得問題回答、生成之類的許多其他接地任務同樣存在類似的現象。(明確不在討論范圍內的是對虛假語言數據進行語言學分析的工作。這類工作根本和語言無關,要不就是分析特定模型類別的形式化表達能力,要不就是垃圾。)長時間以來,一個AI研究者眼中的指令遵循問題是像這樣的:
語言 -> 抽象 -> 行為
也就是說,我們從人們生成的任意表達開始,將其映射到某種清晰的結構化表示,接著基于該結構做出該如何行動的決策。由于一下子處理整個工作流過于困難,大多數情況下社區從不同端開始著手。(并不是所有人都這么干!在最近的端到端瘋狂之前,Stefanie Tellex和Branavan就嘗試處理整個工作流。)
“語言研究者”進行的是這樣的工作:
語言 -> 抽象
在這幅圖景中,語言來自外部世界——你不能控制其分布。你需要設計抽象語言,讓它能夠處理外部世界扔過來的任意表達(如果無法處理,至少也要優雅地失敗)。語言學家以邏輯的形式為我們提供了精良的抽象形式化,通過這種方式從抽象到行為不過是邏輯解釋。因此語言學家很容易就把抽象視為形式化語義,而把“抽象 -> 行為”視作其他人的問題。
數據收集自人類說話人,這些人不需要知道任何關于邏輯形式的東西。事實上,關于邏輯語言細節的決策通常是在收集初始注釋之后做出的。“語言數據”和其他數據的區別恰恰是它們是由人類用戶生成的。(如果我們從虛假語法生成器生成數據,然后將其映射到邏輯形式,那么一般來說我們并沒有學到我們之前寫下的語法之外的任何東西。)
“策略研究者”(大致可以理解為從事強化學習、規劃、經典控制領域研究的人)做的工作是:
抽象 -> 行為
在這一圖景中,可接受的抽象的范圍取決于系統設計者——行為才牽涉真實世界的細節(物理等)。從“做10件特定事項中的一件”到“滿足STRIPS目標”都可以看成是抽象語言。具體來說,一個不支持所有可能目標的抽象語言的問題并不比無法一次性進行所有操作的遠程控制器大多少。(某種意義上說,Jonathan Berant和Percy Liang通過改寫進行語義解析的工作(aclweb/P14-1133)實際上可以歸入這類,而不是語言 -> 抽象那類,雖然他們仍然主張自己的工作是“真實語言”評估標準。)我原先難以領會的是,即使我們完全可以控制輸入分布,這類問題中的一些也非常困難。強化學習是困難的。規劃是困難的。這些抽象語言的有趣的組合性還有大量空間可供研究——如果我有某種目標的機構化表示,然后在結構的子集上訓練,能否推廣至剩余結構?我們還有很多事情做不到。
為了處理當前方法能夠解決的問題,數據源自生成,而非收集。構建抽象所依據的分布和相應推導的行為是手工設計的。這里沒有語言數據;這些工作中使用的數據和“語言數據”的區別在于,語言沒有精確的執行語義,而STRIPS之類的東西卻有。
近年來,這兩個社區漸漸匯合,因為世界看起來是這樣的:
語言 -> 行為
所有時刻,所有事情,都是端到端的。抽象并沒有消失,但存在于某個無法解釋的表示空間,而不是之前手工設計的形式化系統。這是一個大事件!語言研究者再也不必局限在一個他們有足夠的聰明才智可以構建足夠好的邏輯語言的世界之中。
而策略研究者(這正是麻煩開始之處)再也不用以任何特定形式化系統描述他們的任務了:他們只需要某種生成獎勵函數/目標檢驗以及相應的(可組合的?)描述前者的標識符的方法。所以他們生成由單詞序列構成的可解釋的字符串。沒有執行語義了,使用英語單詞:自然語言。這就是困惑的根源。
我相信這對兩個社區中的人而言,這都是一個重要的教訓:
對作為研究人員的策略研究者而言,請務必一定明確標明所用的輸入數據是合成數據。在這一點上,語言一詞已經令人絕望地被濫用了,但二元語法自然語言(natural language)還沒有:除非涉及真人,否則避免使用自然一詞(本文第一段提到的一些論文都應該感到羞愧)。
對作為評審人員的語言研究者而言,對合格的虛假語言數據集而言,提出“它是否解決了一個有趣的抽象 -> 行為問題?字符串是否以一種有趣的方式索引了目標行為類別?”這樣的問題來給出回應。對許多工作而言,這是一個比較合適的標準。
我認為我們仍舊處在可以基于虛假語言研究出很多東西的階段,即使對那些只在意人類生成語言的分布的人,也是如此。
-
數據收集
+關注
關注
0文章
72瀏覽量
11207 -
生態系統
+關注
關注
0文章
702瀏覽量
20745
原文標題:虛假語言:合成語言數據集的爭議和價值
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論