在一項新的研究中,計算機科學家發現,人工智能無法通過兒童可輕松完成的“視力檢測”。
“這是一項聰明且重要的研究,它提醒我們所謂的‘深度學習’并非想象中的那么‘深’”,紐約大學神經科學家 Gary Marcus 表示。
在計算機視覺領域,人工智能系統會嘗試識別和分類對象。他們可能會試圖在街景中找到所有行人,或者只是將鳥與自行車區分開。要知道,這也是一項非常艱巨的任務,其背后的風險系數很高。隨著計算機開始接管自動監控和自動駕駛等關鍵業務,我們會愈加希望它們的視覺處理能力與人眼一樣好。
但這并不容易。這項研究任務突出了人類視覺的復雜性,以及構建模仿系統的挑戰。期間,研究人員向計算機視覺系統展示了一幅客廳的場景,系統正確地識別了椅子、人和書架上的書。然后,研究人員在場景中引入了一個異常物體:一張大象的圖像。接著,“恐怖”事件開始上演。
大象的存在導致系統忘記了自己。突然間,這個 AI 系統開始將椅子稱為沙發,大象稱為椅子,并完全忽略了它之前看到的其他物體。
“各種奇怪事件的發生,表明當前物體檢測系統時多么得脆弱,”多倫多約克大學的研究員 Amir Rosenfeld 表示,他和他的同事 John Tsotsos 和 Richard Zemel 共同撰寫了這項研究。
研究人員仍然想弄清楚為什么計算機視覺系統會如此脆弱。他們猜測 AI 缺乏人類那種從容處理海量信息的能力:當對某一場景產生困惑時,會再回過頭重看一遍。
▌難以直面的“房中大象”
人類,只要睜大眼睛,大腦就會快速的收集、加工這些視覺信息。
相比之下,人工智能會非常費力地制造視覺印象,就好像它是用盲文閱讀描述一樣。不同的算法,人工智能產生了不同的表達效果。在此過程中,特定類型的 AI 系統被稱為神經網絡。它通過一系列“層”來傳遞圖像。在每一層,圖像細節如像素的顏色和亮度,被替換成了越來越抽象的描述。結束時,神經網絡會對其正在觀察的內容產生最佳猜測。
“通過獲取前一層的輸出,處理并將其傳遞到下一層,就像管道一樣,都從一層移動到另一層,”Tsotsos 說。
在這個過程中,神經網絡擅長特定視覺事物的判斷,如將物體進行類別分配。這些成果激起了人們的期望,甚至期待它們可以很快應用在城市車輛的駕駛系統中。
這項新研究具有相同的精神。三位研究人員為神經網絡提供了一個客廳場景:一個坐在破舊椅子邊緣的男子在玩視頻游戲時向前傾斜??催^這個場景之后,神經網絡正確檢測到了許多具有高可信度的物體:人、沙發、電視、椅子、書籍。如下(a)圖。
在(a)圖中,神經網絡以高概率正確識別出了雜亂的起居室場景中的許多項目。(f)圖中添加了一只大象的側身像,系統便出現了問題。左下角的椅子變成了沙發,附近的杯子消失,大象被誤以為是椅子。在其他情況下,系統忽略了在此前試驗中正確檢測到的物體。甚至將大象從圖片中移除后,也會發生這些錯誤。
“如果房間里真的有一頭大象,那么你可能會注意到它?!薄霸撓到y甚至沒有檢測到它的存在。” Rosenfeld 說道。
論文中研究人員總結道:
識別是不穩定的:物體可能偶爾無法被檢測到,或者在環境不經意間快速改變后才能檢測到。
被識別目標的標記并非一致:根據不同的位置,目標可能會被識別為不同的類別。
被識別目標引起了非局部影響:與該目標不重疊的對象可切換標記、邊框,甚至完全消失。
這些結果是圖像識別中的常見問題。通過用包含訓練對象的圖像替換另一個圖像的子區域而獲得,這稱之為“目標移植”。以這種方式修改圖像對識別具有非局部影響。細微的變化會影響目標檢測工具的識別效果。
▌為什么就不能“反思”?
當人類看到意想不到的的東西時,會反復思考。這是一個具有真實認知意義的常見現象,而這恰恰解釋了為什么當場景變得怪異時,神經網絡就會崩潰。
如今用于物體檢測的最佳神經網絡主要以“前饋”的方式工作。這意味著信息穿過神經網絡時只有一個方向。它們從細粒度像素的輸入開始,然后移動到曲線、形狀和場景,神經網絡對每一步看到的物體做出最優預測。因此,當神經網絡匯集它認為知道的所有內容并進行猜測時,早期錯誤的觀察會最終影響整個預測的效果。
設想一下,如果是讓人類看到一幅包含了圓形和正方形的圖像,其中一個圖形為藍色,另一個為紅色??赡芤谎鄄⒉荒茏阋钥辞宥叩念伾5P鍵的是,當人類第二次看時,就會將注意力集中在方塊的顏色上。
“關于人類的視覺系統,‘我還沒有正確的答案,所以我必須返回去看看在哪里犯了錯誤’,” Tsotsos 解釋道。他通過一個叫做Selective Tuning 的理論(http://www.cse.yorku.ca/~tsotsos/Selective_Tuning/Selective_Tuning.html)來解釋這個視覺認知特征的問題。
大多數神經網絡缺乏這種反向能力。對于工程師們如何構建這種特質亦是困難。前饋神經網絡的優勢在于——通過相對簡單的訓練即可進行預測。
但如果神經網絡要獲得這種反復思考的能力。他們需要熟練掌握合適利用這種新能力,以及何時以前饋方式向前推進的能力。人腦可在這些不同的過程之間無縫切換,而神經網絡需要一個新的理論框架才能做同樣的事情。
一篇評論引發的討論
其實,該項研究論文早于上月就已公開發表,但讓大家得到關注的卻是因為《量子雜志》專欄作者 Kevin Hartnett 的一篇評論 “ Machine Learning Confronts the Elephant in the Room” 所傳遞出的強烈觀點。
對此,許多讀者表達了自己的看法。
機器學習將會遭遇成長的痛苦……
這篇文章很有趣,但它沒有說清楚該系統是否具有大象的概念(另外我認為嚴重裁剪像素化的大象不應算數。)
考慮到透視和照明,將豆袋稱為沙發,然后是椅子,這就足夠了。
所有與 AI 相關的“問題”似乎與它們的實際編碼有關系。當 AI 有80%的的確定性時,人們傾向于認為這很好,而人類很少能達到這樣的準確性:要么是 100% 確定(但有可能是錯的),要么是 50% 的準確性甚至完全不清楚。
這就是人類會做的事情,記住物體X和Y的特征,雖然很難在特定的圖像中分辨出來,但還是盡可能通過更清晰的圖片核實真偽。
你可以進行簡單的思考實驗,看看人腦在分析圖像時做了什么。首先,當我看一個場景時,我一定是對幾何有所了解的。無論意義、文字、符號如何,我都可以追溯到事物的三維形狀,這些是與文字無關的。
其次,我可以通過看到大象的外觀模型,與“大象”這個詞聯系起來。我不需要顏色或細節就知道它是大象。事實上,僅憑顏色和細節,我還是很難識別出大象。
(假設我們基于大象的真實圖片訓練了一款神經網絡)如果你將大象的白色雕塑(圖片)拿給神經網絡識別,那么它很可能不會輸出“大象”這個詞。但如果你給出一個大象的真實圖片進行識別,那它可以正確識別大象。
由于大象的白色雕塑與實際圖片之間的差異只是顏色等細節,這表明當訓練深度學習網絡識別大象時,訓練的是細節(包括顏色、像素、甚至斑點),而不是三維模型……這種方式正好與人類認知相反。這是一種過度擬合的形式,單純訓練不足以幫助學習網絡捕捉幾何規律。我敢打賭,如果你用大象的特寫照片用來訓練網絡,那么它在識別方面將做得更好。
我猜測:我們的思維具有特定的和遺傳決定的內置幾何識別算法,可以將 2D 圖像轉換為 3D 形狀。雖然多數情況下我們專注于研究的機器學習是圖像識別,但我相信大腦實際上是學習形狀和幾何識別的。
▌寫在最后
本文開頭我們引述了紐約大學神經科學家 Gary Marcus 的評價:“深度學習”并非我們想象中的那么“深”。想起此前海內外在內的不少學者專家也都曾表示,深度學習雖然引起了人工智能的新一股熱潮,但深度學習并非萬能,在它之外仍有很多的研究內容值得關注。
-
人工智能
+關注
關注
1793文章
47532瀏覽量
239309 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46055 -
深度學習
+關注
關注
73文章
5511瀏覽量
121355
原文標題:錯看一頭大象后,這個AI“瘋了”!
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論