人類就是通過好奇心來認(rèn)識世界,機(jī)器人也可以。
在人們意識當(dāng)中,機(jī)器人按照開發(fā)者的意愿而做出指定的動作似乎是一件理所應(yīng)當(dāng)?shù)氖拢遥瑱C(jī)器人完成任務(wù)還要做到精準(zhǔn)、迅速。然而,F(xiàn)acbook 的研究人員卻不走尋常路,他們有意讓機(jī)器人“犯錯誤”,這到底是為什么呢?
讓我們一起來看看吧。
明知故犯是“智”也
在 Facebook 位于硅谷的新實(shí)驗(yàn)室里,有一個叫作 Sawyer 的機(jī)器人(來自已經(jīng)倒閉的 Rethink Robotics 公司),它紅黑相間的手臂揮舞著,試圖完成研究人員交給它的任務(wù)。
按照指令,Sawyer 的手臂應(yīng)該移動到右邊一處固定位置,然而,Sawyer 把手臂抬高,然后偏離軌道,錯開了指定位置,重新回到了原點(diǎn);研究人員只好將 Sawyer 重置,讓它繼續(xù)完成之前的任務(wù)。這一次,Sawyer 的手臂確實(shí)往右移了,但就在非常接近指定位置的時候,它再一次偏離了運(yùn)動軌道,回到了起始位置。兩次任務(wù)都失敗了。
或許有人會覺得 Sawyer 的“頑劣”行為令人抓狂。但就像兔子為了躲避獵鷹而迂回前進(jìn)一樣,Sawyer 看似笨拙的行為實(shí)際上是一種特殊的聰明。
Facebook 認(rèn)為,無論是對于機(jī)器人的開發(fā),還是 AI 的開發(fā)來說,這種聰明都至關(guān)重要。
強(qiáng)化學(xué)習(xí)讓機(jī)器人更“聰明”
一般來說,開發(fā)者會編程機(jī)器人,讓他們通過這些設(shè)定好的指令來執(zhí)行動作,不過從某種程度上來說,這種方式有點(diǎn)死板。
而我們?nèi)祟愒趯W(xué)習(xí)上則要聰明得多。因?yàn)椋词故菋雰阂裁靼祝矬w從視野中消失并不代表從世界上消失;玩具球可以滾來滾去,沙發(fā)卻不行;長大后,人們能夠?qū)W習(xí)駕駛,而不是撞車。
這一切都要?dú)w功于人類大腦里建立起來的世界模型。
Facebook 首席 AI 科學(xué)家 Yann LeCun 表示:
如果我們在懸崖邊開車,方向盤只要往右轉(zhuǎn),汽車就會掉下去,所以,我們絕不會這樣做。我們大腦里的世界模型會阻止我們自己做傻事。
Facebook 也在嘗試為機(jī)器提供這種模式,Yann LeCun 補(bǔ)充道說,建立世界模型的系統(tǒng)是 AI 取得重大進(jìn)展的下一個挑戰(zhàn)。
實(shí)際上,F(xiàn)acebook 并不是第一個嘗試讓機(jī)器人學(xué)會自我移動的團(tuán)隊(duì)。
雷鋒網(wǎng)注:上圖為 Brett 機(jī)器人及其開發(fā)者Pieter Abbeel
在加州大學(xué)伯克利分校,研究人員使用了一種名為強(qiáng)化學(xué)習(xí)(reinforcement learning)的技術(shù),讓雙臂機(jī)器人 Brett 把方形釘子塞進(jìn)一個方形洞里。
在此過程中,研究人員會讓 Brett 嘗試許許多多隨機(jī)的動作:如果 Brett 更接近目標(biāo),系統(tǒng)就會給它“獎勵”;如果 Brett 搞砸了,系統(tǒng)會給它“記過”。
這些記錄,Brett 都會保存下來,然后經(jīng)過多次迭代,它會越來越精準(zhǔn)地找到方洞,并把釘子放進(jìn)去。
創(chuàng)新的自我監(jiān)督學(xué)習(xí)
而 Facebook 的嘗試有點(diǎn)不同,F(xiàn)acebook AI 研究科學(xué)家 Franziska Meier 表示:
我們想嘗試的是給機(jī)器人灌輸好奇心的概念。
人類就是通過好奇心來認(rèn)識世界的,比如,孩子們想知道猛拽貓尾巴會發(fā)生什么,所以他們會去做這種嘗試。因此,Brett 是通過一點(diǎn)一點(diǎn)地靠近目標(biāo),來改進(jìn)自己的動作,而 Facebook 的 Sawyer 則是靠近目標(biāo),然后故意偏離軌道。
Facebook 研究人員旨在讓 Sawyer 自由地嘗試非最佳動作,而不是獎勵它不斷取得的成功,即使這在當(dāng)時看起來并不理性。Meier 說:
雖然 Sawyer 沒有完成任務(wù),但它給了我們更多的數(shù)據(jù),我們通過這種方式獲得的數(shù)據(jù)比傳統(tǒng)的方式要多。
這個概念被稱為自我監(jiān)督學(xué)習(xí)——機(jī)器人嘗試新行為并更新軟件模型,從而幫助它預(yù)測自己的行為后果。
上圖為 Facebook 所說的“自我監(jiān)督學(xué)習(xí)”的算法模型
這樣做的目的是讓機(jī)器能夠更加靈活地去完成任務(wù),或者說,更容易適應(yīng)動態(tài)的人類環(huán)境。
比如,機(jī)器人要將架子上的杯子放到旁邊的架子,最好的方法是將杯子直接平移,然而兩個架子之間有隔板,這就需要機(jī)器人反復(fù)試驗(yàn)、反復(fù)犯錯,直到它探索出更好的解決方案。
正如奧斯陸大學(xué)的機(jī)器人專家 Tonnes Nygaard 所說的那樣:
如果我們一直執(zhí)著于一個解決方案,我們可能會走進(jìn)死胡同;我們更應(yīng)該專注于探索更多新的解決方案。
模擬與現(xiàn)實(shí)之間的差距
一些研究人員通過模擬來教機(jī)器人完成任務(wù)——建立一個數(shù)字世界,再讓其中的動畫對象通過“犯錯”的方式來完成任務(wù)。這種方法相對較快,因?yàn)楫?dāng)數(shù)字“機(jī)器”不受現(xiàn)實(shí)世界物理定律的約束,它們迭代的速度要快得多。
不過,雖然模擬更高效,但它并不能完美地反映真實(shí)世界,模擬動態(tài)人類環(huán)境的復(fù)雜性。
這就導(dǎo)致,機(jī)器人在模擬環(huán)境中能夠完美匹配的理論,在現(xiàn)實(shí)世界中卻不適用。在現(xiàn)實(shí)世界中做任何事情都可能更慢、更費(fèi)力,但好處是,機(jī)器人能獲得的數(shù)據(jù)更純粹。
Facebook的人工智能研究科學(xué)家 Roberto Calandra 表示:
如果它在現(xiàn)實(shí)世界中行得通,那它就真的行得通。
畢竟,機(jī)器人在現(xiàn)實(shí)世界中要面對各種意想不到的麻煩,程序員不可能對每一個都預(yù)先進(jìn)行編碼。
AI 和機(jī)器人相得益彰
上圖是 Facebook 的六足機(jī)器人
從某種程度上來說,F(xiàn)acebook 的項(xiàng)目是 AI 和機(jī)器人的偉大融合。
雖然谷歌和亞馬遜和 Facebook 等科技巨頭已經(jīng)大大推動了 AI 的發(fā)展,比如讓機(jī)器進(jìn)行圖像識別,不過這個任務(wù)仍基于人們事先給圖片貼好標(biāo)簽。不得不承認(rèn),機(jī)器還是不夠聰明。
隨著 AI 研究人員開始使用機(jī)器人作為平臺來改進(jìn)軟件算法,這種情況開始發(fā)生變化。
例如,F(xiàn)acebook 教機(jī)器人獨(dú)立完成一系列任務(wù),這反過來可能會對開發(fā) AI 助手有所啟發(fā),讓它們能夠更好地為用戶服務(wù)。LeCun 說道:
如果機(jī)器人解決了一個問題,同理,它也能在另一種情況下解決這個問題。
簡而言之就是,AI 正在讓機(jī)器人變得更聰明,而機(jī)器人也在幫助推進(jìn) AI 的發(fā)展。
不過,F(xiàn)acebook 表示,目前,公司的這項(xiàng)研究并沒有連接到特定的產(chǎn)品。不過,LeCun 說:
我們認(rèn)為,機(jī)器人將在遠(yuǎn)程呈現(xiàn)中發(fā)揮重要作用。畢竟,F(xiàn)acebook 擁有 Portal 和 Oculus VR 系統(tǒng)。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28632瀏覽量
208063 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54903
原文標(biāo)題:Facebook:不會“犯錯”的機(jī)器人,不是“聰明”的機(jī)器人
文章出處:【微信號:smartman163,微信公眾號:網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論