編者按:Jaley Dholakiya簡要概述了深度學習在可解釋性推理方向上的進展。
對一個使用深度學習查明患者是否患有多發性硬化的醫生來說,模型僅僅給出“是”或“否”并不好。對自動駕駛這樣安全攸關的應用而言,僅僅預測會發生碰撞并不夠。使機器學習能夠清楚地表述給出斷言的依據,這是一個緊迫的需求。Devi Parikh、Druv Batra的視覺問答工作,李飛飛團隊在理解視覺關系方面的工作,都屬于這一方向。但這離學習推理結構還很遠。這篇博客文章將討論如何在CNN和知識圖譜中納入推理。
長期以來,推理都被理解為一組歸納和演繹。基于抽象符號邏輯方面的研究,John Venn在1881年標準化了這些概念。它像是IQ測試,由A可得B,由B可得C,故由A可得C,等等。可以把它想成一組邏輯等式。
然而,1975年L.A. Zadeh提出了近似推理(approximate reasoning)的概念,替代了固定的歸納/推理的思路。近似推理同時引入了語言變量(linguistic variable)這一術語(年齡=年輕,很年輕,相當年輕,年老,相當老,很老)。與語言變量相對的是數值變量(年齡=21,15,19,57,42,47)。語言變量是通過單詞構建模糊邏輯的基礎。近似推理標準化了在推理中考慮模糊性和歧義性的方法。
例如,在我們的日常語言中,我們不會說“我正和一個身高173厘米的21歲男性說話”,而是說“我正和一個高個小伙說話”。因此,模糊邏輯考慮了構建推理模型的論點的模糊性。
盡管納入了模糊性,它仍未能捕捉到人類推理的精髓。有一種可能的解釋是,除了簡單的演繹(“A不是B,B是C,意味著A不是C”),人類推理具備一個壓倒性的內隱推理元素。無需經過上述步驟,人類瞬間可以做出演繹。有時候這是本能。如果你養寵物狗,那么你知道從它嘴里奪走玩具會發生什么。
人類顯示了一種不同尋常的能力,可以隨著時間的推移而抽象、改進內隱推理。基于統計學習的語言模型正是內隱學習的一個例子。它并沒有使用任何規則、命題、模糊邏輯,而是通過時間模型學習長期依賴。你可以將它想象成手機中的自動補全特性。你要么訓練一個推理結構來預測最符合邏輯的詞組,要么讓統計學方法預測一個概率上恰當的補全詞組。
這類模型無法處理罕見單詞或罕見圖像,這是因為罕見性導致模型遺忘了相關信息。這類模型也不能概括一個概念。而人類具有這一能力。例如,如果我們看到一種牛,那么我們能夠推廣所學到所有其他種類的牛上。如果我們聽過某句話,那么我們能夠辨認出這句話不同語調、口音、節奏的變體。
不管過去的知識有多么不相關,人類都可以加以利用。借鑒人類這一能力,單樣本學習開辟了學習罕見事件的道路。如果一個人有生以來只見過方塊和三角形,然后第一次看到一頭鹿,這個人不會僅僅將它記憶為一張圖像,而會下意識地儲存它和方塊、三角形的相似性。對單樣本學習而言,記憶庫是必不可少的。基于記憶和核心模型的交互,模型可以更高效地學習,更快地推理。
我知道你也許感到單樣本這一術語很費解。所以我們將給出一個基于ImageNet進行單樣本學習的簡單例子。現在,讓我們把ImageNet的1000個分類(猴子、人類、貓,等等)想象成真人秀的評委。每個評委根據選手是一只猴子、一個人等的可能性給出評分。
讓我們假設有一個模型沒有訓練過的第1001分類。如果我從這個分類中取兩個樣本,沒有一個評委能夠給出自信的評分,但如果我們查看這1000個評委給這兩個樣本的評分,那么我們有可能從中找出相似性。例如,加拉巴哥蜥蜴從鱷魚和蜥蜴那里得到的票數可能最高,超過任何其他分類的評委。評委一定會給這兩個加拉巴哥蜥蜴類似的評分,盡管加拉巴哥蜥蜴并不在分類列表中,訓練數據中甚至沒有一張加拉巴哥蜥蜴的圖像。這種基于特征相似性的歸類是單樣本學習最簡單的形式。
Santoro最近在記憶增強神經網絡上的工作,通過可微記憶操作自動化與記憶的交互,這種做法借鑒了神經圖靈機。
所以網絡學習特征向量,和未見分類一起保存于可微記憶塊之中。這一表示不斷發展,給了神經網絡學習“如何快速學習”的能力,這正是我們將其稱為元學習的原因。就這樣,神經網絡的行為開始變得更像人類了。人類聯系過去和現在的能力極強。例如,即使我沒見過這一奇異的外星生物,我仍然可以說它像是一個長著牛角的狒狒或者大猩猩。
到目前為止,我們討論的關鍵點是:
基于模糊邏輯的單純的外顯推理無法捕捉人類推理的精髓。
傳統單樣本學習這樣的內隱模型,自身無法從罕見事件學習、概括。需要記憶增強。
增強記憶的結構可以是cho和sutskever所用的LSTM,也可以是santoro最近的工作中使用的動態查詢表。動態查詢表可以進一步加強,基于外置知識圖譜,比如Bengio實驗室的Sungjin提出的神經知識語言模型。
如果需要補全不完整的句子,我可以使用簡單的序列到序列模型。但由于罕見命名實體的關系,序列到序列模型的表現不會很好。模型原本很少有機會聽到“Crazymuse”。但是,如果我們學習從知識圖譜獲取命名實體,那么我們就可以使用罕見的命名實體補全句子,只要我們能夠識別主題和聯系,還有應該是從LSTM獲取信息還是從知識圖譜信息。這種組合知識圖譜和神經網絡的方法真的很棒。
就推理和推斷而言,這帶來了大量可能性,因為知識表示(主題,預測,目標)讓我們可以進行更復雜的推理任務,就像結合外顯模糊邏輯和內隱統計學習。
從知識圖譜獲取信息,加上注意力機制可能導向可解釋模型。
SQUAD這樣的問答數據集幫助人們在可推斷語言模型上取得了顯著進展。最近視覺問答方面的工作則使用Visual Genome、CLEVR、VRD這樣的數據集將圖像轉換為本體,并學習視覺關系以改善場景理解和推斷。
不過,場景理解下的問答進展仍有一些局限:
使用LSTM作為基于記憶的模型以及學習視覺關系的注意力轉移無疑改善了對環境的理解和概括能力。但學習過程和改善推理的權威形式方面仍有許多需要改進的地方。
結構中拼命使用卷積神經網絡,使得模型難以為人類所理解。這樣的架構也許很適合基本的分類問題和領域特定的生成任務,但并不是為推理設計的。相反,如果我們能像Tom Mitchell提出的Never-Ending Learning那樣,直接學習更豐富的知識圖譜中的多模實體表示和本體,那么我們就可以學習跨領域推理結構,并迫使模型更好地表達其對實體關系的理解。
我夢想有那么一天,機器學習推理。到了那一天,我們可以詢問機器:“你為什么覺得這個人有多發性硬化”,接著機器可以找到表述它的理據的詞匯。我知道Naftali在信息瓶頸原則方面的工作和Mitchell的Never-Ending Learning,但我們缺少的是主動學習模糊邏輯提供的基本推理結構上的抽象。它可以由基于獎勵的學習最佳策略驅動,也可以由基于單樣本學習原則的某種驗證驅動,也可以由某種基于半監督圖模型的方法驅動。但是,不管驅動因子是什么,模型需要學習改善推理。模型需要學習將推理引擎和來自聲音或圖像的豐富特征表示聯系起來,也許這甚至會促進類似策略迭代的“改善表示,改善推理,改善表示,改善推理”的循環。最重要的是,模型應該能夠向人類表述其抽象,例如,“你好,人類,我覺得貓很可愛,因為它們的眼睛和嬰兒的眼睛很像,充滿了生機,和你單調的日常完全不同”。
直到那一天,讓我們堅持訓練模型,同時堅持夢想那樣的模型運行的那一天。因為夢想化為現實的速度比你想象的要快!
關于作者
Jaley在YouTube上開設了Crazymuse AI頻道,也在Edyoda上開設了課程。他曾在哈曼擔任資深數據科學家,并對認識人類推理的結構極為好奇。
-
機器學習
+關注
關注
66文章
8419瀏覽量
132675 -
深度學習
+關注
關注
73文章
5503瀏覽量
121182
原文標題:理解人類推理的深度學習
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論