摘要:”當研究問題或數據集包括多個這樣的模態時,其特征在于多模態。
【導讀】人工智能領域最頂級國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影響因子為 9.455),2019年1月最新一期發表了關于多模態機器學習綜述論文。我們周圍的世界涉及多種形式 - 我們看到物體,聽到聲音,感覺質地,聞到異味等等。 一般而言,模態指的是事物發生或經歷的方式。 大多數人將形態與感覺方式聯系起來,這些感覺方式代表了我們主要的交流和感覺渠道,例如視覺或觸覺。
因此,當研究問題或數據集包括多個這樣的模態時,其特征在于多模態。 本文主要關注但不僅僅關注三種形式:自然語言既可以是書面的,也可以是口頭的; 視覺信號,通常用圖像或視頻表示; 和聲音信號,編碼聲音和口頭信息,如韻律和聲音表達。
我們對世界的體驗是多模式的 - 我們看到物體,聽到聲音,感覺質地,聞到異味和味道。情態是指某種事物發生或經歷的方式,并且當研究問題包括多種這樣的形式時,研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進展,它需要能夠將這種多模態信號一起解釋。多模式機器學習旨在構建可以處理和關聯來自多種模態的信息的模型。這是一個充滿活力的多學科領域,具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用,而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類,并確定了多模式機器學習所面臨的更廣泛的挑戰,即:表示,翻譯,對齊,融合和共同學習。這種新的分類法將使研究人員能夠更好地了解該領域的狀況,并確定未來研究的方向。
論文地址:
http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915
https://ieeexplore.ieee.org/document/8269806
模態特征表示
多模態的表示方法有兩類:
聯合表示將不同模態的特征映射到同一個空間,代表方法有神經網絡的方法、圖模型方法與序列模型方法。
協調方法特征仍在原空間,但是通過相似度或者結構特征協調。
多模態特征翻譯
多模態特征翻譯分為基于樣本的和生成式的:
基于樣本的方法從特征字典中找出最佳翻譯。基于樣本的方法分為基于檢索式的和合并的方法。
生成式的方法則是通過樣本,訓練一個翻譯模型,并使用翻譯模型完成對特征的轉換。生成式的方法有基于語法的、encoder-decoder模型和連續模型。
多模態特征對齊
多模態特征對齊是找到同一個實例的不同之間模態特征之間的關系。
顯式對齊方法包括監督模型和無監督模型。無監督模型如CCA和DTW(Dynamic time warping)等。
隱式對齊的方法包括圖模型和神經網絡
多模態特征融合
多模態特征融合是指將從不同模態的特征集成在一起,共同完成一個任務,如分類。
無模型融合的方法被分為早期模型(基于特征)、晚期模型(基于決策)和混合模型
有模型融合的方法有核方法、圖模型方法、神經網絡模型方法等。
-
人工智能
+關注
關注
1793文章
47622瀏覽量
239569 -
機器學習
+關注
關注
66文章
8438瀏覽量
132906 -
自然語言
+關注
關注
1文章
290瀏覽量
13382
原文標題:人工智能頂刊TPAMI2019最新《多模態機器學習綜述》
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論