前段時間,OpenAI的游戲機器人在Dota2的比賽中贏了人類的5人小組,取得了團隊勝利,是強化學習攻克的又一游戲里程碑。但是本文作者Andrey Kurenkov卻表示,強化學習解決的任務也許沒有看起來那么復雜,深究起來是有缺陷的。以下是論智帶來的編譯。
在這篇文章中,我們來討論討論AI核心領域——強化學習的缺陷。我們先從一個有趣的比喻開始,之后會關注一個重要因素——先驗知識,接著我們會對深度學習進行介紹,最后進行總結。
首先我們將對強化學習是什么進行介紹,以及它為什么有基礎性缺陷(或者至少某個版本,我們稱為“純粹的強化學習”)。如果你是AI專業人才,可以跳過這部分簡介。
棋盤游戲
假設你的一位朋友給你介紹了一款你從未聽說過的游戲,并且你之前從來沒玩過任何游戲。你朋友告訴你怎樣算有效的移動,但是卻不告訴你這樣做的意義是什么,也不告訴你游戲怎么計分。在這種情況下你開始參與游戲,沒有任何問題,也不會有任何解釋。結果就是不斷地輸……慢慢地你發現了輸局的某些規律,雖然之后還是會輸,但起碼能堅持玩一段時間了。經過幾周后,甚至幾千盤對抗后,你甚至能贏下一局。
聽起來很傻,為什么不在一開始就問游戲的目標以及應該怎樣獲勝呢?總之,上面的場景是當下大多數強化學習方法的做法。
強化學習(RL)是AI的一個基礎子領域,在強化學習的框架中,智能體(agent)在與環境的交互中學習應該在特定狀態下做出哪些動作從而使長期獎勵最大化。這也就是說在上述棋盤游戲中,玩家在棋盤中學習怎么走能讓最后的分數最高。
在強化學習的典型模型中,智能體最初只知道它可以做哪些動作,除此之外對環境一無所知,人們希望它能在與環境的交互中,以及在收到獎勵后學會該做什么動作。缺少先驗知識的意思是,智能體從零開始學習,我們將這種從零開始的方法稱為“純粹的強化學習”。純強化學習可以用到西洋棋或者圍棋中,也可以應用到機器人等其他領域。
最近很多強化學習受到了深度學習的啟發,但基礎模型沒怎么改變。畢竟這種從零開始學習的方法是強化學習的開端,并且在大多數基礎等式中都有表現。
所以這里有個基本問題:如果純強化學習的過程特別不合常理,那么在此基礎上設計的AI模型能有多可靠?如果我們認為讓人類通過純強化學習全新的棋盤游戲很荒唐,那么這個框架對智能體來說也是有缺陷的呢?僅僅通過獎勵信號而不借助先驗知識和高水平指導,就開始學習一項新技能真的有意義嗎?
先驗知識和高水平指導在經典強化學習中是不存在的,隱式或顯式地改變這些方法可能對所有用于訓練強化學習的算法有很大影響,所以這是個非常大的問題,要回答它需要兩部分:
第一部分即本文,我們將從展示純強化學習的主要成果開始,這些成果可能不會像你想象得那樣重要。接著,我們會展示一些更復雜的成果,它們在純強化學習下可能無法完成,因為智能體會受到多種限制。
在第二部分中,我們將瀏覽各種能解決上述限制的方法(主要是元學習和zero-shot學習)。最后,我們會總結基于這種方法的令人激動的成果并進行總結。
純強化學習真的有道理嗎?
看到這個問題,大多數人可能會說
當然了,AI智能體不是人類,不會像我們一樣學習,純強化學習已經能解決很多復雜任務了。
但是我不同意。根據定義,AI研究指的是讓機器做只有動物和人類目前能做的事,因此,將機器和人類智慧相比是不恰當的。至于純強化學習已經解決的問題,人們常常忽視了重要的一點:這些問題通常看起來并不那么復雜。
這聽起來可能很驚訝,因為很多大型研究機構都努力地用強化學習做出各種成果。這些成果確實很棒,但是我仍然認為這些任務并不像他們看起來那么復雜。在深入解釋之前,我列舉了一些成就,并且指出它們為什么值得人們研究:
DQN:這項由DeepMind推出的項目在五年前引起了人們對強化學習極大的興趣,該項目展示了將深度學習和純強化學習結合后,可以解決比此前更復雜的問題。雖然DQN只包含少量的創新,但對于讓深度強化學習變得更實用是很重要的。
AlphaGo Zero和AlphaZero:這種純強化學習模型已經超越了人類最佳水平。最初的AlphaGo是監督學習和強化學習結合的產物,而AlphaGo Zero是完全通過強化學習和自我對抗實現的。因此,它是最接近純強化學習方法的產物,雖然它仍然有提供游戲規則的模型。
在與人類對戰獲勝后,AlphaGo Zero被很多人看作是一種游戲顛覆者。接著一種更通用的版本——AlphaZero出現了,它不僅能玩圍棋,還能下國際象棋和日本將棋,這是第一次有一種算法可以完成兩種棋類比賽。所以AlphaGo Zero和AlphaZero是非常了不起的成就。
OpenAI可以打Dota的機器人:深度強化學習能夠在Dota2中多人模式中擊敗人類了。去年,OpenAI的機器人在1v1對抗中擊敗了人類就已經令人印象深刻了,這次是更加困難的5v5。它同樣不需要先驗知識,并且也是通過自我對抗訓練的。
這種在復雜游戲中的團隊模式中獲勝的成績比此前的雅達利游戲和圍棋對抗更驚艷。另外,這一模型還沒有進行主要的算法更新,完全依靠大量計算和已有的純強化學習算法和深度學習進行的。
所以,純強化學習已經做出了很多成績。但是就像我之前說的,他們有些地方可能被高估了。
首先從DQN開始。
它可以超越人類水平玩很多雅達利游戲,但也并不是全部。一般來說,它適合玩靈活度較高的、不需要推理和記憶的游戲。即使五年之后,也不會有純強化學習攻下推理和記憶游戲。相反,能完成這些游戲的都經過了指導和示范。
即使在DQN表現良好的游戲中,它也需要非常大量的時間和經驗去學習。
同樣的限制在AlphaGo Zero和AlphaZero上都有體現。圍棋的很多性質都能讓學習任務變得簡單,例如它是必然的、完全可觀測的、單一智能體等等。但唯獨一件事讓圍棋變得麻煩:它的分支因數太多了。
所以,圍棋可能是變數最多的簡易游戲。有人說強人工智能(AGI)因為AlphaGo的成功即將到來,這種說法不攻自破。多數研究者認為,真實的世界比一個簡單游戲復雜得多,盡管AlphaGo的成功令人贊賞,但是它和它所有的變體從根本上和“深藍”是相似的:它只是一套昂貴的系統罷了。
說到Dota,它的確比圍棋更復雜,并且是非靜止的、多人的游戲。但是它仍然是可以用靈活的API操控的游戲,并且成本巨大。
所以,盡管這些成就很偉大,我們仍需要對它們的本質進行了解,同時要思考,純強化學習難道不能成為獲取這些成就的最佳方法嗎?
純強化學習的基礎缺陷——從零開始
有沒有更好的方法讓智能體下圍棋、玩dota呢?AlphaGo Zero的名字來源正是暗示它是從零開始學習的模型,但是讓我們回到文章開頭說的那個小故事,如果讓你從零開始學習下圍棋,不給任何解釋,聽起來很荒謬對嗎?所以為什么要把這定為AI的目標呢?
事實上,如果你正在學的那個棋盤游戲是圍棋,你會怎么開始?可能你會先讀一遍規則,學一些高級策略,回憶一下之前的對戰,總結經驗……確實,讓AlphaGo Zero和Dota機器人從零開始學習是有點不公平的,它們只依靠更多數量的游戲經驗和運用比人類大得多的計算力。
AlphaGo Zero技能增長曲線,注意,它花了一整天的時間和好幾千局游戲才達到人類最低水平
實際上,純強化學習技術可以在更“窄”的任務中應用,例如連續控制或是像dota和星際爭霸這樣的復雜游戲。然而隨著深度學習的成功,AI研究者正嘗試解決更復雜的問題例如汽車駕駛和對話。
所以,純強化學習,或者從零開始的學習方法,是解決復雜任務的正確方法嗎?
是否應該堅持純強化學習?
答案可能如下:
當然,純強化學習是除了圍棋和dota之外的其他問題的正確解決方法。雖然在棋盤類游戲中有點講不通,但是在通用事物的學習上還是可以說得通的。另外,就算不受人類的啟發,智能體在沒有先驗知識的條件下也能表現得更好。
讓我們先說最后一點,不考慮人類的啟發,從零開始的典型做法就是另一種方法會限制模型的精確度,將人類的想法編碼到模型上是很困難的,甚至會降低性能。這種觀點在深度學習的成功之后成為了主流,即用百萬級參數學習端到端模型,并在大量數據上訓練,同時有一些內在先驗知識。
但問題時,加入先驗知識和知道并不會將人類知覺中含有的有限結構加入到智能體上。換句話說,我們可以教會智能體或模型關于怎樣執行任務,而不會添加對其能力有限制的因素。
對大多數AI問題來說,不從零開始就不會限制智能體學習的方式。目前還沒有確切的原因解釋,為什么AlphaGo Zero如此執著于“從零開始”,事實上它可以借助人類知識表現得更好。
那么純強化學習是最佳解決辦法嗎?這個答案曾經很簡單,在無梯度優化領域,純強化學習是你可以選擇的最可靠的方法。但是最近的一些論文質疑了這一說法,并認為更簡單的基于演化策略的方法能達到相似效果。具體論文:
Simple random search provides a competitive approach to reinforcement learning
Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Towards Generalization and Simplicity in Continuous Control
Ben Recht,是理論和實際優化算法的頂尖研究者,也是Simple random search provides a competitive approach to reinforcement learning一文的作者之一,他準確地總結了以上觀點:
我們看到,隨機搜索在簡單線性問題上表現良好,并且比一些強化方法,例如策略梯度表現得更好。但是當我們提出更難的問題時,隨機搜索崩潰了嗎?不好意思,沒有。
所以,將純強化學習用來從零開始學習不一定是正確的方法。但是回到人類從零開始學習的問題,人們會在具備一些技巧,卻沒有指示信息的情況下開始學習嗎?不會的。
也許在一些通用基礎問題上,純強化學習可能有用,因為這些問題很廣泛。但是在AI中,很大部分的問題是否適合強化學習還并不清楚。事實上,之所以選擇從零開始,是因為目前的AI和強化學習都有著很多缺陷:
目前的AI非常需要數據。很多項目都需要大量的數據進行計算,而從零學習只需要高效的采樣方法即可。
目前的AI是不透明的。也就是“黑箱”問題,很多時候我們只能從較高層次了解AI算法的學習和工作流程。
目前的AI應用范圍有限。很多模型一次只能執行一種任務,而且很容易崩潰。
現有AI很脆弱。只有在大量數據訓練的基礎上,模型才可能對從未見過的輸入生成較好結果。即使如此也經常崩潰。
-
AI
+關注
關注
87文章
31262瀏覽量
269620 -
強化學習
+關注
關注
4文章
268瀏覽量
11273
原文標題:斯坦福學者冷思考:強化學習存在基礎性缺陷
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論