近期,來自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt兩位研究員為頂會ICML舉辦的Machine Learning: The Great Debate發表文章,并指出現在機器學習研究中的四大危機:混淆闡述與推測、無法明確得到較好結果的原因、數學公式堆積以及語言誤用。
學術界在大家的印象里一般是很嚴肅的,但近期AI頂會ICML在斯德哥爾摩舉辦了一個辯論會—Machine Learning: The Great Debates (ML-GD),專供各家學者、研究人員積極探討領域內技術的現狀、瓶頸及對社會的影響。
有AI小網紅之稱的Zachary C.Lipton攜手斯坦福研究員Jacob Steinhardt發表了參會的論文《Troubling Trends in Machine Learning Scholarship》,并發推文,引發了熱烈的討論。
觀點提出背景
機器學習(ML)研究人員正在致力于有關“數據驅動算法”知識的創建和傳播。據研究,許多研究人員都渴望實現以下目標:
理論性闡述可學習內容
深入理解經驗嚴謹的實驗
構建一個有高預測精度的工作系統
雖然確定哪些知識值得探究是很主觀的,但是一旦主題確定,當論文為讀者服務時,它對社區最有價值,它能創造基礎知識并盡可能清楚地進行闡述。
什么樣的論文更適合讀者呢?我們可以列出如下特征:這些論文應該
(i)提供直觀感受以幫助讀者理解,但應明確區別于已證明的強有力結論;
(ii)闡述考量和排除其他假設的實證調查 ;
(iii)明確理論分析與直覺或經驗之間的關系 ;
(iv)利用語言幫助讀者理解,選擇術語以避免誤解或未經證實的內容,避免與其他定義沖突,或與其他相關但不同的概念混淆。
機器學習研究中的四大危機
盡管機器學習最近取得了一些進展,但這些“理想”狀態往往與現實背離。在這篇文章中,我們將重點放在以下四種模式上,這些模式在ML學術(schoolar-ship)中似乎是最流行的:
1. 無法區分客觀闡述和推測。
2. 無法確定得到較好結果的原因,例如,當實際上是因為對超參數微調而獲得好效果的時候,卻強調不必要修改神經網絡結構。
3. 數學公式堆積:使用令人混淆的數學術語而不加以澄清,例如混淆技術與非技術概念。
4. 語言誤用,例如,使用帶有口語的藝術術語,或者過多的使用既定的技術術語。
雖然這些模式背后的原因是不確定的,但會導致社區的迅速擴張、評閱的人數不足,以及學術和短期成功衡量標準(如文獻數量、關注度、創業機會)之間經常出現的不平衡。雖然每種模式都提供了相應的補救措施(但不建議這么做),我們還將討論一些關于社區如何應對這些趨勢的推測性建議。
有缺陷的學術研究可能會誤導大眾,并阻礙學術未來的研究。實際上,這些問題有許多是在人工智能的歷史(更廣泛地說,是在科學研究)中循環出現的。1976年,Drew Mc-Dermott[1]指責人工智能社區放棄了自律,并預言“如果我們不能批判自己,別人就會幫我們解決問題”。
類似的討論在整個80年代、90年代和2008年都反復出現[2,3,4]。在心理學等其他領域,糟糕的實驗標準削弱了人們對該學科權威的信任。當今機器學習的強勁潮流歸功于迄今為止大量嚴謹的研究,包括理論研究[5,6,7]和實證研究[8,9,10]。通過提高清晰明了的科學思維和交流,我們可以維持社區目前所享有的信任和投資。
總結
可能有人會認為這些問題可以通過自律、自我糾正來改善。這個觀點雖然是正確的,但是機器學習社區需要反復討論如何構建合理的學術標準以實現這種自我修正。
-
人工智能
+關注
關注
1791文章
47279瀏覽量
238513 -
機器學習
+關注
關注
66文章
8418瀏覽量
132646
原文標題:【ICML開杠】機器學習研究的四大危機
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論