Google研究人員在GECCO 2020會(huì)議上,發(fā)布具有自注意力(Self-attention)瓶頸的人工智能代理AttentionAgent,研究人員運(yùn)用不注意視盲(Inattentional Blindness),讓AttentionAgent具有選擇性注意力,能夠忽略不重要的細(xì)節(jié),相較于傳統(tǒng)方法,代理泛化學(xué)習(xí)參數(shù)少了1,000倍,可以更好地處理復(fù)雜的計(jì)算機(jī)視覺任務(wù)。
不注意視盲是一種人類心理現(xiàn)象,由于選擇性注意力,因此人們會(huì)漏看視野里部分東西,Google提到,這種選擇性注意機(jī)制,讓人們可以專注于重要的事物上,而不分心于無關(guān)緊要的細(xì)節(jié),他們相信這種機(jī)制可以讓人們濃縮感官信息,成為一種夠簡潔的形式,用于未來的決策上。
盡管選擇性注意力看起來像是種限制,但Google認(rèn)為,從自然界觀察到的這種瓶頸,可用于改善機(jī)器學(xué)習(xí)設(shè)計(jì),通過模仿讓人工智能學(xué)習(xí),生物能夠高性能解決任務(wù)的方法。過去的深度增強(qiáng)學(xué)習(xí),都讓人工智能代理能夠訪問完整的視覺輸入,而Google現(xiàn)在以注意力限制,來減少人工智能代理訪問視覺輸入,以提高系統(tǒng)性能,不只可以大幅減少需要的參數(shù),而且因?yàn)榇砜床灰姴糠忠曈X輸入,因此剛好能避掉那些可能造成混淆的內(nèi)容,而且查看代理把注意力集中在什么部分,還可以為其決策提供視覺的可解釋性。
過去也有類似的研究,利用稀疏性來限制輸入內(nèi)容,而AttentionAgent則是從人類的不注意視盲獲得靈感,當(dāng)大腦付出努力參與任務(wù)時(shí),大部分的注意力會(huì)集中在與任務(wù)相關(guān)的元素上,暫時(shí)對(duì)其他信號(hào)視而不見。為了要實(shí)現(xiàn)這件事,Google將輸入的圖像分割成幾個(gè)小區(qū)塊,然后修改自注意力架構(gòu)來模擬小區(qū)塊間的投票,選出重要的子集,AttentionAgent會(huì)忽略不重要的部分,僅利用重要區(qū)塊做決策。
關(guān)鍵要素除了視覺輸入的截取之外,關(guān)聯(lián)這些要素隨時(shí)間變化的能力也很重要,像是棒球比賽中的打者,必須利用視覺信號(hào)來連續(xù)關(guān)注棒球的位置,以預(yù)測(cè)能夠打擊到球的位置,AttentionAgent則會(huì)利用長短期記憶(LSTM)模型,從重要的視覺區(qū)塊中截取信息,并在每個(gè)時(shí)步?jīng)Q定一個(gè)行動(dòng),LSTM會(huì)關(guān)注輸入串行變化,并利用這項(xiàng)信息關(guān)注關(guān)鍵要素在不同時(shí)的演變。
重要區(qū)塊的可視化,可讓研究人員知道人工智能下決策的方法,并說明大多數(shù)的選擇,是合理且符合人類主動(dòng),可作為系統(tǒng)開發(fā)階段,好用的分析和調(diào)試工具,另外,Google提到,人工智能代理學(xué)會(huì)忽略非關(guān)核心任務(wù)的信息,因此經(jīng)修改還可以推廣應(yīng)用到小環(huán)境任務(wù)。
Google的這項(xiàng)研究,證明僅讓人工智能代理訪問重要的區(qū)塊,無視場景其余的部分,可以提升代理泛化(Generalize),用于解決其他任務(wù)能力,像是在VizDoom TakeCover環(huán)境接受訓(xùn)練的人工智能代理,也能夠在其他墻壁較高、地板貼圖不同,或是更多令人分心標(biāo)志的環(huán)境下生存。
這樣的成果可以被應(yīng)用在自動(dòng)駕駛上,應(yīng)用晴天資料集學(xué)習(xí)駕駛的代理,也能夠?qū)Ⅰ{駛技能轉(zhuǎn)移到晚上或是下雨天,AttentionAgent不僅能夠解決CarRacing-v0任務(wù),在其他惡劣環(huán)境中,也能達(dá)到相近的性能,泛化需要的參數(shù)比慣用的方法少1,000倍。
不過,即便AttentionAgent能夠適應(yīng)環(huán)境修改,仍有其限制,像是原本周圍都是綠地的賽車背景,一旦換成YouTube視頻便會(huì)失效,又或是更換成均勻的噪聲時(shí),人工智能代理的注意力模塊便會(huì)失效,Google提到,他們用于選擇重要視覺區(qū)塊的方法仍不夠強(qiáng)健,不足以應(yīng)對(duì)更復(fù)雜的任務(wù),因此他們接下來會(huì)發(fā)展,能從視覺輸入截取有意義特征的方法。
責(zé)任編輯:tzh
-
人工智能
+關(guān)注
關(guān)注
1793文章
47604瀏覽量
239544 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46069 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13918瀏覽量
166791
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論