1 介紹
我們對世界的體驗是多模態的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態是指某件事發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特征。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的信號。
例如,圖像通常與標簽和文本解釋相關聯,文本包含圖像,以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。這些數據被稱為多模態大數據,包含豐富的多模態和跨模態信息,對傳統的數據融合方法提出了巨大的挑戰。
在這篇綜述中,我們會介紹一些開創性的深度學習模型來融合這些多模態大數據。隨著對多模態大數據的探索越來越多,仍有一些挑戰需要解決。因此,本文對多模態數據融合的深度學習進行了綜述,旨在為讀者(無論其原始社區如何)提供多模態深度學習融合方法的基本原理,并激發深度學習的新型多模態數據融合技術。
通過多模態深度學習,結合不同的模態或信息類型來提高效果,從直觀上看是一項很有吸引力的任務,但在實踐中,如何結合不同的噪聲水平和模態之間的沖突是一個挑戰。此外,模型對預測結果有不同的定量影響。在實踐中最常見的方法是將不同輸入的高級嵌入連接起來,然后應用softmax。
這種方法的問題是,它將給予所有子網絡/模式同等的重要性,這在現實情況中是非常不可能的。這里需要采用子網絡的加權組合,以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。
2 具有代表性的深度學習架構? ?
在本節中,我們將介紹多模態數據融合深度學習模型的代表性深度學習架構。具體而言,給出了深度架構的定義、前饋計算和反向傳播計算,以及典型的變體。表1總結了代表性模型。
表1:代表性深度學習模型摘要。
2.1 深度信念網絡(DBN) ?
受限玻爾茲曼機(RBM)是深度信念網的基本塊(Zhang, Ding, Zhang, & Xue, 2018;Bengio,2009 年)。RBM是玻爾茲曼機的特殊變體(見圖1)。它由可見層和隱藏層組成;可見層的單元與隱藏層的單元之間存在全連接連接,但同一層中的單元之間沒有連接。RBM 也是一個生成圖形模型,它使用能量函數以捕獲可見單元和隱藏單元之間的概率分布.
最近,有人提出了一些先進的RBM來提高性能。例如,為了避免網絡過度擬合,Chen, Zhang, Yeung, and Chen (2017) 設計了稀疏玻爾茲曼機,該機基于分層潛在樹學習網絡結構。Ning, Pittman, and Shen (2018) 將快速對比發散算法引入 RBM,其中基于邊界的濾波和 delta 積用于減少計算中的冗余點積計算。為了保護多維數據的內部結構,Ju et al. ( 2019) 提出了張量 RBM,學習隱藏在多維數據中的高級分布,其中使用張量分解來避免維災難。
DBM是一種典型的深度架構,由多個RBM堆疊而成(Hinton&Salakhutdinov,2006)。它是一種基于預訓練和微調訓練策略,可以利用能量來捕捉可見物體與相應標簽之間的關節分布的生成模型。在預訓練中,每個隱藏層都被貪婪地建模為在無監督策略中訓練的 RBM。之后,通過監督策略中訓練標簽的判別信息進一步訓練每個隱藏層。DBN 已被用于解決許多領域的問題,例如數據降維、表示學習和語義哈希。具有代表性的 DBM 如圖 1 所示。
圖 1:
2.2 堆疊式自動編碼器(SAE) ?
堆疊式自動編碼器(SAE)是編碼器-解碼器架構的典型深度學習模型(Michael,Olivier和Mario,2018;翁,盧,譚,和周,2016)。它可以通過以無監督-監督方式將原始輸入轉換為中間表示來捕獲輸入的簡潔特征。SAE已廣泛應用于許多領域,包括降維(Wang,Yao,&Zhao,2016),圖像識別(Jia,Shao,Li,Zhao,&Fu,2018)和文本分類(Chen&Zaki,2017)。圖 2 展示了具有代表性的 SAE。 ? ?
圖2:
2.3 卷積神經網絡(CNN) ?
DBN 和 SAE 是完全連接的神經網絡。在這兩個網絡中,隱藏層中的每個神經元都連接到前一層的每個神經元,這種拓撲結構會產生大量連接。為了訓練這些連接的權重,全連接的神經網絡需要大量的訓練對象來避免過度擬合和欠擬合,這是計算密集型的。此外,全連接拓撲不考慮神經元之間所包含的特征的位置信息。因此,完全連接的深度神經網絡(DBN、SAE及其變體)無法處理高維數據,尤其是大圖像和大音頻數據。
卷積神經網絡是一種特殊的深度網絡,它考慮了數據的局部拓撲結構(Li, Xia, Du, Lin, & Samat, 2017;Sze,Chen,Yang和Emer,2017)。卷積神經網絡包括全連接網絡和包含卷積層和池化層的約束網絡。約束網絡使用卷積和池化運算來實現局部感受野和參數約簡。與 DBN 和 SAE 一樣,卷積神經網絡也通過隨機梯度下降算法進行訓練。它在醫學圖像識別(Maggiori,Tarabalka,Charpiat和Alliez,2017)和語義分析(胡,Lu,Li,&Chen,2014)方面取得了很大進展。具有代表性的 CNN 如圖 3 所示。
圖 3: ? ?
?
2.4 循環神經網絡(RNN) ?
遞歸神經網絡是一種處理串行數據的神經計算架構(Martens & Sutskever, 2011;Sutskever,Martens和Hinton,2011)。與深度前向架構(即DBN,SAE和CNN)不同,它不僅將輸入模式映射到輸出結果,而且還通過利用隱藏單元之間的連接將隱藏狀態傳輸到輸出(Graves&Schmidhuber,2008)。通過使用這些隱藏的連接,RNN 對時間依賴性進行建模,從而在時間維度上共享對象之間的參數。它已被應用于各個領域,如語音分析(Mulder,Bethard和Moens,2015),圖像標題(Xu等人,2015)和語言翻譯(Graves&Jaitly,2014),取得了出色的性能。與深度前向架構類似,其計算也包括前向傳遞和反向傳播階段。在前向傳遞計算中,RNN 同時獲取輸入和隱藏狀態。在反向傳播計算中,它使用時間反向傳播算法來反向傳播時間步長的損耗。圖 4 顯示了具有代表性的 RNN。 ? ?
圖 4:
3 面向多模態數據融合的深度學習? ?
在本節中,我們從模型任務、模型框架和評估數據集的角度回顧了最具代表性的多模態數據融合深度學習模型。根據所使用的深度學習架構,它們分為四類。表2總結了具有代表性的多模態深度學習模型。
表2:
代表性多模態深度學習模型摘要.
3.1 基于網絡的深度信念多模態數據融合 ?
3.1.1 示例1 ?
Srivastava 和 Salakhutdinov (2012) 提出了一種基于深度玻爾茲曼學習模型的多模態生成模型,通過擬合多模態數據在各種模態(如圖像、文本和音頻)上的聯合分布來學習多模態表示。
所提出的多模態DBN的每個模塊均采用無監督逐層方式進行初始化,并采用基于MCMC的近似方法進行模型訓練。 ? ?
為了評估學習到的多模態表示,執行了大量的任務,例如生成缺失模態任務、推斷聯合表示任務和判別任務。實驗驗證了學習到的多模態表示是否滿足所需的屬性。
3.1.2 示例2 ?
為了在早期有效診斷阿爾茨海默病,Suk、Lee、Shen和阿爾茨海默病神經影像學計劃(2014)提出了一種多模態玻爾茲曼模型,該模型可以融合多模態數據中的互補知識。具體來說,為了解決淺層特征學習方法造成的局限性,DBN用于通過將特定領域的表示轉移到分層抽象表示來學習每個模態的深度表示。然后,在串聯向量上構建單層 RBM,該向量是來自每個模態的分層抽象表示的線性組合。它用于通過構建不同多模態特征的聯合分布來學習多模態表示。最后,根據三種典型診斷對ADNI數據集對所提出的模型進行了廣泛的評估,實現了最先進的診斷準確性。
3.1.3 示例3 ?
為了準確估計人類姿勢,Ouyang, Chu, and Wang (2014)設計了一個多源深度學習模型,該模型通過提取高階空間中身體模式的聯合分布,從混合類型、外觀得分和變形模態中學習多模態表示。在人-姿態多源深度模型中,從圖像結構模型中提取了三種廣泛使用的模態,這些模型基于條件隨機場理論組合了身體的各個部位。為了獲得多模態數據,通過線性支持向量機對圖形結構模型進行訓練。之后,這三個特征中的每一個都被輸入到一個兩層受限玻爾茲曼模型中,以從特定于特征的表示中捕獲高階姿態空間的抽象表示。通過無監督初始化,每個特定模態的受限玻爾茲曼模型都會捕獲全局空間的固有表示。然后,使用RBM進一步學習基于高級混合類型、外觀得分和變形表示的串聯向量的人體姿態表示。為了訓練所提出的多源深度學習模型,設計了一個同時考慮身體位置和人體檢測的任務特定目標函數。所提出的模型在LSP、PARSE和UIUC上進行了驗證,并產生了高達8.6%的改進。 ? ?
最近,人們提出了一些新的基于DBN的多模態特征學習模型。例如,Amer、Shields、Siddiquie 和 Tamrakar ( 2018) 提出了一種用于序列事件檢測的混合方法,其中采用條件 RBM 來提取具有附加判別標簽信息的模態和跨模態特征。Al-Waisy、Qahwaji、Ipson 和 Al-Fahdawi ( 2018) 引入了一種識別人臉的多模態方法。在這種方法中,使用基于DBN的模型對Curvelet變換捕獲的局部手工特征的多模態分布進行建模,可以合并局部特征和深度特征的優勢(Al-Waisy等人,2018)。
3.1.4 小結 ?
這些基于DBN的多模態模型使用概率圖形網絡將特定于模態的表示轉換為共享空間中的語義特征。然后,根據共享空間的特征對模態上的聯合分布進行建模。這些基于DBN的多模態模型在無監督、半監督和監督學習策略中更加靈活和穩健。它們非常適合捕獲輸入數據的信息特征。然而,他們忽略了多模態數據的空間和時間拓撲結構。
3.2 基于堆疊自編碼器的多模態數據融合 ?
3.2.1 示例4 ? ?
Ngiam et al. (2011) 提出的多模態深度學習是基于堆疊自編碼器 (SAE) 的多模態數據融合最具代表性的深度學習模型。這種深度學習模型旨在解決兩個數據融合問題:跨模態和共享模態表征學習。前者旨在利用來自其他模態的知識來捕捉更好的單模態表示,而后者則在中級學習模態之間的復雜相關性。為了實現這些目標,設計了三種學習場景——多模態、跨模態和共享模態學習,如表 3 和圖 6 所示。
圖 6:
多模態、跨模態和共享模態學習的架構。
表3:? ?多模態學習的設置。
在多模態學習場景中,音頻頻譜圖和視頻幀以線性方式連接成向量。將串聯向量饋入稀疏受限玻爾茲曼機 (SRBM),以學習音頻和視頻之間的相關性。該模型只能學習多個模態的陰影聯合表示,因為相關性隱含在原始級別的高維表示中,而單層 SRBM 無法對它們進行建模。受此啟發,中級表示的串聯向量被輸入到 SRBM 中,以模擬多個模態的相關性,從而顯示出更好的性能。
在跨模態學習場景中,提出了一種深度堆疊多模態自編碼器來顯式學習模態之間的相關性。具體來說,音頻和視頻都作為特征學習中的輸入呈現,在監督訓練和測試中,只有其中一個被輸入到模型中。該模型以多模態學習的方式進行初始化,能夠很好地模擬跨模態關系。
在共享模態表示中,在去噪自編碼器的激勵下,引入了特定于模態的深度堆疊多模態自編碼器,以探索模態之間的聯合表示,尤其是在缺少一個模態時。通過將其中一個模態替換為零而擴大的訓練數據集被輸入到特征學習的模型中。 ? ?
最后,在CUAVE和AVLetters數據集上進行了詳細的實驗,以評估多模態深度學習在特定任務特征學習中的性能。
3.2.2 示例5 ?
為了從一系列圖像(尤其是視頻)中生成視覺和語義上有效的人體骨骼,Hong,Yu,Wan,Tao和Wang(2015)提出了一種多模態深度自動編碼器來捕獲圖像和姿勢之間的融合關系。特別是,所提出的多模態深度自編碼器通過三階段策略進行訓練,以構建二維圖像和三維姿態之間的非線性映射。在特征融合階段,利用多視圖超圖低秩表示,基于流形學習,從一系列圖像特征(如定向梯度直方圖和形狀上下文)構建內部二維表示。在第二階段,訓練單層自動編碼器來學習抽象表示,該抽象表示用于通過重建二維圖像間特征來恢復三維姿態。同時,以類似的方式訓練單層自動編碼器,以學習三維姿勢的抽象表示。在獲得每個單一模態的抽象表示后,使用神經網絡通過最小化兩個模態互表示之間的平方歐幾里得距離來學習二維圖像和三維姿態之間的多模態相關性。所提出的多模態深度自編碼器的學習由初始化和微調階段組成。在初始化中,從相應的自編碼器和神經網絡復制多模態深度自編碼器每個子部分的參數。然后,通過隨機梯度下降算法對整個模型的參數進行進一步微調,從相應的二維圖像中構造出三維姿態。
3.2.3 小結 ?
基于SAE的多模態模型采用編碼器-解碼器架構,通過無監督方式通過重構方法提取內在的模態特征和跨模態特征。由于它們基于SAE,這是一個完全連接的模型,因此需要訓練許多參數。此外,他們忽略了多模態數據中的空間和時間拓撲結構。
3.3 基于卷積神經網絡的多模態數據融合 ?
3.3.1 示例 6 ?
為了模擬圖像和句子之間的語義映射分布,馬,Lu,Shang和Li(2015)提出了一個多模態卷積神經網絡。為了充分捕捉語義相關性,在端到端架構中設計了三級融合策略——詞級、階段級和句子級。該架構由影像子網、匹配子網和多模態子網組成。圖像子網是一個具有代表性的深度卷積神經網絡,例如Alexnet和Inception,它有效地將圖像輸入編碼為簡潔的表示。匹配子網對將圖像內容與語義空間中句子的單詞片段相關聯的聯合表示進行建模。 ? ?
3.3.2 示例 7 ?
為了將視覺識別系統擴展到無限數量的離散類別,Frome等人(2013)通過利用文本數據中的語義信息提出了一種多模態卷積神經網絡。該網絡由語言子模型和視覺子模型組成。語言子模型基于skip-gram模型,該模型可以將文本信息傳輸到語義空間的密集表示中。視覺子模型是一個具有代表性的卷積神經網絡,例如 Alexnet,它在 1000 類 ImageNet 數據集上進行預訓練以捕獲視覺特征。為了對圖像和文本之間的語義關系進行建模,語言和視覺子模型通過線性投影層進行組合。每個子模型都由每個模態的參數初始化。之后,為了訓練這種視覺語義多模態模型,提出了一種新的損失函數,通過結合點積相似度和鉸鏈秩損失,可以為正確的圖像和標簽對提供高相似性分數。該模型可以在 ImageNet 數據集上產生最先進的性能,避免語義上不合理的結果。 ? ?
3.3.3 小結 ?
基于CNN的多模態模型可以通過局部字段和池化操作來學習模態之間的局部多模態特征。它們顯式地對多模態數據的空間拓撲進行建模。而且它們不是參數數量大大減少的完全連接模型。
3.4 基于遞歸神經網絡的多模態數據融合 ?
3.4.1 示例 8 ?
為了生成圖像的標題,毛等人(2014)提出了一種多模態遞歸神經架構。這種多模態遞歸神經網絡可以彌合圖像和句子之間的概率相關性。它解決了以前工作無法生成新圖像標題的局限性,因為以前的工作根據學習的圖像-文本映射在句子數據庫中檢索相應的標題。與以前的工作不同,多模態遞歸神經模型(MRNN)根據給定的單詞和圖像學習語義空間上的聯合分布。當圖像出現時,它會根據捕獲的聯合分布逐字生成句子。具體來說,多模態遞歸神經網絡由語言子網、視覺子網和多模態子網組成,如圖 7 所示。語言子網由兩層詞嵌入部分和單層循環神經部分組成,前者捕獲有效的特定任務表示,后者對句子的時間依賴性進行建模。視覺子網本質上是一個深度卷積神經網絡,如Alexnet、Resnet或Inception,它將高維圖像編碼為緊湊的表示。最后,多模態子網是一個隱藏網絡,它對學習語言和視覺表示的聯合語義分布進行建模。
圖 7:
3.4.2 示例 9 ?
為了解決當前視覺識別系統無法一目了然地生成圖像豐富描述的局限性,通過橋接視覺和文本數據之間的模態間關系,提出了一種多模態對齊模型(Karpathy&Li,2017)。為了實現這一點,提出了一個雙重方案。首先,設計了一個可視化語義嵌入模型來生成多模態訓練數據集。然后,在此數據集上訓練多模態 RNN,以生成圖像的豐富描述。
在視覺語義嵌入模型中,區域卷積神經網絡用于獲取豐富的圖像表示,這些圖像表示包含與句子相對應的內容的足夠信息。然后使用雙向 RNN 將每個句子編碼為具有圖像表示的相同維度的密集向量。此外,還給出了一個多模態評分函數來衡量圖像和句子之間的語義相似性。最后,利用馬爾可夫隨機場方法生成多模態數據集。
在多模態RNN中,提出了一種基于文本內容和圖像輸入的更有效的擴展模型。該多模態模型由對圖像輸入進行編碼的卷積神經網絡和對圖像特征和句子進行編碼的 RNN 組成。該模型還通過隨機梯度下降算法進行訓練。這兩種多模態模型都在 Flickr 和 Mscoco 數據集上進行了廣泛的評估,并實現了最先進的性能。
?
3.4.3 小結 ?
基于RNN的多模態模型能夠借助隱藏單元計算中的顯式狀態傳遞來分析隱藏在多模態數據中的時間依賴性。他們使用時間反向傳播算法來訓練參數。由于在隱藏狀態傳輸中進行計算,因此很難在高性能設備上并行化。
4 總結與展望? ?
我們將模型總結為基于DBN、SAE、CNN和RNN的四組多模態數據深度學習模型。這些開創性的模式已經取得了一些進展。然而,這些模型仍處于初步階段,因此仍然存在挑戰。? ??
首先,多模態數據融合深度學習模型中存在大量的自由權重,特別是對目標任務影響不大的冗余參數。為了訓練這些捕獲數據特征結構的參數,將大量數據輸入到基于反向傳播算法的多模態數據融合深度學習模型中,該算法計算密集且耗時。因此,如何結合現有的壓縮策略設計新的多模態深度學習壓縮方法也是一個潛在的研究方向。
其次,多模態數據不僅包含跨模態信息,而且包含豐富的跨模態信息。因此,深度學習和語義融合策略的結合可能是解決探索多模態數據所帶來的挑戰的一種方式。 ? ?
第三,從動態環境中收集多模態數據,表明數據是不確定的。因此,隨著動態多模態數據的爆炸式增長,必須解決用于數據融合的在線和增量多模態深度學習模型的設計問題。
審核編輯:黃飛
?
評論
查看更多