為了讓深度學習算法像人類一樣用形狀來識別物體,研究人員用涂有不相干紋理的圖片來訓練這些系統。結果表明:系統的表現得到了提高,這同時也為我們視覺的進化提供了線索。
當你注視一張貓的照片,無論它被涂成姜黃色,被弄皺,變成黑白色,被污染,被磨損甚至是褪色,你都有可能把它識別出來。當貓藏在枕頭后面或正在向工作臺上跳躍時,你同樣可能會識別出它。你已經很自然地學會了在幾乎任何情況下識別一只貓。相比之下,由深度神經網絡驅動的機器視覺系統有時甚至能在某些條件下比人類做得更好。但是在一些特殊的情形下,如圖片上有噪聲,顆粒等的情況下,機器的識別率會大打折扣。
德國的一個研究小組發現了導致這種情況的令人意想不到的原因:當人類關注物體的形狀時,深度學習計算機視覺算法通常會關注物體的紋理。
這一發現使人類和機器的“思考”方式形成鮮明對比,并說明了我們的直覺可能誤導了人工智能的發展,同時也暗示了人類的視覺為什么會以現有的方式進化。
身著大象皮膚的貓咪和鐘表組成的飛機
深度學習算法的訓練方法是向神經網絡展示包含或不包含貓的數千幅圖像。系統從這些數據中找到一些模式,然后用這些模式來決定如何給從未見過的圖像貼上標簽。該網絡的架構粗略地模仿了人類視覺系統的架構,因為它相互連接的層可以讓它從圖像中提取越來越抽象的特征。這個系統通過一個黑箱過程來建立聯系,使其找到正確的答案,而人類只能在事后去理解這個過程。“我們一直在試圖找出這些深度學習計算機視覺算法成功的原因,和導致了它們的不穩定的因素。”俄勒岡州立大學(Oregon State University)計算機科學家托馬斯·迪特里希(Thomas Dietterich)說。
大象皮膚的貓
為了做到這一點,一些研究人員來研究通過修改圖像來欺騙網絡時會發生什么。他們發現,非常小的變化就能導致系統的識別結果完全錯誤,而大的變化又不會導致這些錯誤。與此同時,其他專家通過網絡去分析單個“神經元”對圖像的反應,生成系統學得的“激活圖譜”的特征。
但德國圖賓根大學(University of Tubingen)計算神經學家馬蒂亞斯貝斯格(Matthias Bethge)和心理物理學家費利克斯威克曼(Felix Wichmann)的實驗室里的一隊科學家采用了一種更加定性的方法。去年,這個小組訓練一個對被某種特定噪音影響的圖像進行分類的神經網絡時,發現它可以比人類做得更好。但是,當這些圖像以一種稍微不同的方式改變時,它就完全失效了,盡管在人類看來,新的這兩種情況看起來幾乎一樣。
為了解釋這個結果,研究人員想到即使是只包含極小的噪聲其特征也會變化很大的特征量——紋理。貝斯格(Bethge)和威克曼實驗室的研究生、這項研究的主要作者羅伯特·吉爾霍斯(Robert Geirhos)說:“如果一直增加噪音,物體的形狀基本上是完好無損的。但是圖像中的局部結構會隨著噪音的添加很快被扭曲。”所以他們想出了一個聰明的方法來測試人和深度學習系統是如何處理圖像的。
貝斯格(Bethge)和威克曼的同事制作了包括兩種特征的圖像:其中形狀來自一個物體,紋理來自另一個物體。例如一只貓的輪廓顏色與大象的皮膚紋理,或者鋁罐構成的熊或一架由鐘面填充的飛機。在展示了數百張這樣的圖片后,人類幾乎每次都會根據它們的形狀——貓、熊、飛機——給它們貼上標簽,就像預期的那樣。然而,四種不同的分類算法卻傾向于另一種方式,它們貼出的標簽反映了物體的紋理的識別:大象、罐頭、時鐘。
哥倫比亞大學的計算神經學家Nikolaus Kriegeskorte說:“這改變了我們對深度前饋神經網絡如何進行視覺識別的理解”。
乍一看,人工智能偏愛紋理甚于形狀似乎有些奇怪,但這是有道理的。克里格斯科特(Kriegeskorte)說:“你可以把紋理想象成更微小尺度上的形狀。這種微小尺度更容易被系統捕捉到:包含紋理信息的像素數量遠遠超過構成物體邊界的像素數量,而網絡的最初幾步包括檢測線和邊緣等局部特征。多倫多約克大學(York University)的計算視覺科學家約翰索索斯(John Tsotsos)說。“紋理就是將以相同方式排列的線段分組。”
吉爾霍斯和他的同事已經證明,這些局部特征足以讓網絡執行圖像分類任務。事實上,貝斯格和該研究的另一名作者、博士后研究員維蘭德布倫德爾(Wieland Brendel)在一篇論文中也闡明了這一點。在這項工作中,他們建立了一個深度學習系統,它運行起來很像深度學習出現之前的分類算法——就像一個“功能包”。“它把圖像分成小塊,就像現在的模型開始做的那樣,但是,接下來并不是整合這些信息逐步提取高級特性,而是直接判斷每個小塊的內容。它只是將這些小塊加在一起來確定對象的身份,而沒有考慮每個小塊之間的全局空間關系。然而,它卻能以驚人的準確度識別物體。
布倫德爾說:“這挑戰了‘深度學習正在做一些完全不同于以往的事情’的假設。”“顯然……這是一個飛躍。這一飛躍接近一些人的預期。”
約克大學(York University)和多倫多大學(University of Toronto)的博士后研究員阿米爾羅森菲爾德(Amir Rosenfeld)表示,“我們認為神經網絡應該做的事情和它們實際做的事情之間仍然存在巨大差異”,包括它們在多大程度上重現了人類行為。
布倫德爾表達了類似的觀點。他說,一般我們假設神經網絡將像我們人類一樣解決任務。“但我們往往忘記還有其他方式。”
更人性化的方案
目前的深度學習方法可以將局部特征(如紋理)集成到更全局的模式(如形狀)中。克里格斯科特說:“在這些論文中,令人驚訝的一點是,盡管架構允許這樣做,但如果你只是訓練它(對標準圖像進行分類),它不會自動學會這種整合方式的。”
吉爾霍斯想看看當團隊強制令他們的模型忽略紋理時會發生什么。該團隊拍攝了傳統上用于訓練分類算法的圖像,并以不同的風格“繪制”它們,本質上剝離了它們有用的紋理信息。當他們根據新的圖像重新訓練每個深度學習模型時,系統開始依賴更大、更全局的模式,并表現出更像人類的對形狀的偏好。
圖賓根大學(University of Tubingen)計算神經科學研究員維蘭德?布倫德爾(Wieland Brendel)發現,神經網絡將圖像視為“特征包”,并依賴于這些特征信息對圖像對象進行分類。
當這種情況發生時,算法也變得更善于對有噪聲的圖像進行分類,即使它們沒有接受過處理這種失真的訓練。“基于形狀的網絡變得更加強大,”吉爾霍斯說。“這告訴我們,對特定的任務有正確的偏好,也就是形狀偏好,在這種情況下,有助于將其推廣到一個新的背景。”
它還暗示,人類可能天生就有這種偏好,因為即使是在有噪聲的情況下,用形狀定義我們所看到的東西也是一種更有力的方式。人類生活在一個三維的世界里,在這個世界里,人們可以在許多不同的條件下從多個角度觀察物體,我們的其他感官,比如觸覺,可以根據需要幫助識別物體。所以我們的視覺將形狀置于紋理之上是有道理的。
威克曼說,這項研究提醒我們,“數據利用的偏好和影響比我們想象的要多。”這并不是研究人員第一次遇到這樣的問題:面部識別程序、自動招聘算法和其他神經網絡因為訓練他們所用的數據存在自身的偏好,所以之前已經被證明過于重視我們不太關注的特征。事實證明,在他們的決策過程中消除這些不必要的偏好是困難的,但威克曼表示,新的研究表明這是可能的。
然而,即使是關注形狀的吉爾霍斯模型,也可能被圖像中過多的噪音或特定的像素變化打敗——這表明它們距離實現人類水平的視覺還有很長的路要走。盡管如此,克里格斯科特說,通過這樣的研究,“我們可以很明確地說這些模型還沒有捕捉到人類大腦的重要機制。”“在某些情況下,”威克曼說,“也許研究數據集更重要。”
“我們需要設計更聰明的數據和更聰明的任務,” 多倫多大學的計算機科學家費德勒(Sanja Fidler)說。她和她的同事們正在研究給予神經網絡次要任務從而能幫助它們發揮主要功能。受吉爾霍斯發現的啟發,他們最近訓練了一種圖像分類算法,不僅能識別物體本身,還能識別出哪些像素是物體輪廓或形狀的一部分。網絡自動地在它的常規對象識別任務中變得更好。費德勒說:“給你一個任務,你會選擇性關注某些特征而對其他很多事情都視而不見。”“如果我給你多個任務,你可能會關注更多的方面。這些算法也是一樣的。解決不同的任務讓他們“對不同的信息產生偏好”,這與吉爾霍斯在形狀和紋理上的實驗相似。
迪特里希說,這些研究成果是令人興奮的一步,加深了我們對(深度學習)現狀的理解,或許有助于我們克服目前所看到的局限。”
-
人工智能
+關注
關注
1792文章
47411瀏覽量
238926 -
深度學習
+關注
關注
73文章
5507瀏覽量
121272
發布評論請先 登錄
相關推薦
評論