在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CMU最新《多模態(tài)機器學習的基礎和最新趨勢》綜述

新機器視覺 ? 來源:專知 ? 作者:專知 ? 2022-12-07 14:43 ? 次閱讀

57ae762e-75e6-11ed-8abf-dac502259ad0.png

論文:Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址:https://arxiv.org/pdf/2209.03430.pdf

多模態(tài)機器學習是一個充滿活力的多學科研究領域,旨在通過整合多種交流模態(tài),包括語言、聲學、視覺、觸覺和生理信息,設計具有理解、推理和學習等智能能力的計算機智能體。隨著最近人們對視頻理解、具身化自主智能體、文本到圖像生成以及醫(yī)療健康和機器人等應用領域的多傳感器融合的興趣,多模態(tài)機器學習給機器學習社區(qū)帶來了獨特的計算和理論挑戰(zhàn),因為數據源的異質性和模式之間經常發(fā)現的相互聯(lián)系。然而,多模態(tài)研究的廣泛進展使得很難確定該領域的共同主題和開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論框架,本文旨在提供一個多模態(tài)機器學習的計算和理論基礎的概述。我們首先定義了驅動后續(xù)創(chuàng)新的模態(tài)異質性和相互聯(lián)系的兩個關鍵原則,并提出了6個核心技術挑戰(zhàn)的分類:表征、對齊、推理、生成、轉移和涵蓋歷史和近期趨勢的量化。最新的技術成果將通過這種分類法來展示,讓研究人員了解新方法的異同。最后,我們提出了幾個由我們的分類法確定的開放問題,以供未來研究。

開發(fā)具有智能能力的計算機智能體一直是人工智能的一個宏偉目標,如通過多模態(tài)經驗和數據進行理解、推理和學習,就像我們人類使用多種感官模式感知世界的方式一樣。隨著近年來在具身自主代理[77,512]、自動駕駛汽車[647]、圖像和視頻理解[16,482,557]、文本到圖像生成[486]以及機器人[335,493]和醫(yī)療健康[281,357]等應用領域的多傳感器融合方面的進展,我們現在比以往任何時候都更接近能夠集成許多感官形態(tài)并從中學習的智能體。多模態(tài)機器學習這一充滿活力的多學科研究領域帶來了獨特的挑戰(zhàn),因為數據的異質性和通常在模態(tài)之間發(fā)現的相互聯(lián)系,并在多媒體[351,435]、情感計算[353,476]、機器人[308,334]、人機交互[445,519]和醫(yī)療健康[85,425]中有廣泛的應用。

然而,多模態(tài)研究的進展速度使得很難確定歷史和近期工作的共同主題,以及該領域的關鍵開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論見解,本文旨在提供多模態(tài)機器學習的方法論、計算和理論基礎的概述,這很好地補充了最近在視覺和語言[603]、語言和強化學習[382]、多媒體分析[40]和人機交互[269]等面向應用的研究。

581f04f2-75e6-11ed-8abf-dac502259ad0.png

圖1:多模態(tài)學習的核心研究挑戰(zhàn):(1)表示研究如何表示和總結多模態(tài)數據,以反映單個模態(tài)元素之間的異質性和相互聯(lián)系。(2)對齊旨在識別所有元素之間的聯(lián)系和相互作用。(3)推理的目的是將多模態(tài)證據組合成知識,通常通過對一個任務的多個推理步驟。(4)生成包括學習生成過程,以產生反映跨模態(tài)交互、結構和一致性的原始模態(tài)。(5)遷移旨在在模態(tài)及其表示之間遷移知識。(6)量化包括實證和理論研究,以更好地理解異質性、相互聯(lián)系和多模態(tài)學習過程。

為了建立多模態(tài)機器學習的基礎,我們首先為數據模式和多模態(tài)研究的定義奠定基礎,然后確定驅動后續(xù)技術挑戰(zhàn)和創(chuàng)新的兩個關鍵原則:(1)模態(tài)是異質的,因為在不同模態(tài)中出現的信息往往表現出不同的質量、結構和表征;(2)模態(tài)是相互聯(lián)系的,因為它們經常相關、共享共性,或在用于任務推斷時相互作用產生新信息。基于這些定義,我們提出了多模態(tài)機器學習中的六個核心挑戰(zhàn)的新分類:表示、對齊、推理、生成、遷移和量化(見圖1)。這些構成了傳統(tǒng)單模態(tài)機器學習中研究不足的核心多模態(tài)技術挑戰(zhàn),為了推動該領域向前發(fā)展,需要解決這些挑戰(zhàn):

1. 表征: 我們能學習反映個體模態(tài)元素之間的異質性和相互聯(lián)系的表征嗎?本文將涵蓋以下基本方法:(1)表示融合:整合來自2個或更多模態(tài)的信息,有效減少單獨表示的數量;(2)表示協(xié)調:互換跨模態(tài)信息,目標是保持相同的表示數量,但改善多模態(tài)語境化;創(chuàng)建一個新的不相交的表示集,其數量通常大于輸入集,反映有關內部結構的知識,如數據聚類或因子分解。

2. 對齊:我們如何識別樣式元素之間的連接和交互?模態(tài)之間的對齊具有挑戰(zhàn)性,涉及(1)識別模態(tài)元素之間的連接,(2)上下文表示學習以捕獲模態(tài)連接和交互,以及(3)處理具有歧義分割的模態(tài)輸入。

3. 推理被定義為從多模態(tài)證據中組合知識,通常通過多個推理步驟,為特定任務開發(fā)多模態(tài)對齊和問題結構。這種關系通常遵循某種層次結構,更抽象的概念在層次結構中被定義為較不抽象的概念的函數。推理包括(1)對推理發(fā)生的結構建模,(2)推理過程中的中間概念,(3)理解更抽象概念的推理范式,(4)在結構、概念和推理的研究中利用大規(guī)模的外部知識。

4. 生成:第四個挑戰(zhàn)涉及學習生成過程,以生成反映每個模態(tài)的獨特異質性和模態(tài)之間的相互聯(lián)系的原始模態(tài)。我們將其子挑戰(zhàn)分類為:(1)總結:總結多模態(tài)數據以減少信息內容,同時突出輸入中最突出的部分;(2)翻譯:從一種模態(tài)轉換到另一種模態(tài)并保持信息內容,同時與跨模態(tài)交互保持一致;(3)創(chuàng)造:同時生成多個模態(tài)以增加信息內容,同時保持模態(tài)內部和跨模態(tài)的一致性。

5. 遷移旨在在模態(tài)及其表示之間遷移知識,通常用于幫助可能有噪聲或資源有限的目標模態(tài)。以以下算法為例:(1)跨模態(tài)遷移:使模型適應涉及主要模態(tài)的下游任務;(2)共同學習:通過在兩種模態(tài)之間共享表示空間,將信息從次要模態(tài)轉移到主要模態(tài);保持單個單模態(tài)模型獨立,但在這些模型之間傳遞信息,從一種模態(tài)學到的知識(例如,預測的標簽或表示)如何幫助以另一種模態(tài)訓練的計算模型?

6. 量化: 第六個挑戰(zhàn)涉及實證和理論研究,以更好地理解異質性、模態(tài)相互聯(lián)系和多模態(tài)學習過程。量化旨在理解(1)多模態(tài)數據集的異質性維度以及它們如何影響建模和學習,(2)多模態(tài)數據集和訓練過的模型中模態(tài)連接和交互的存在和類型,以及(3)異構數據涉及的學習和優(yōu)化挑戰(zhàn)。

最后,我們對多模態(tài)學習的未來研究方向提出了一個長遠的展望。

5839d4a8-75e6-11ed-8abf-dac502259ad0.jpg

58503e32-75e6-11ed-8abf-dac502259ad0.jpg

588f42bc-75e6-11ed-8abf-dac502259ad0.jpg

58b9bf7e-75e6-11ed-8abf-dac502259ad0.jpg

58d724b0-75e6-11ed-8abf-dac502259ad0.jpg

58fcea56-75e6-11ed-8abf-dac502259ad0.jpg

59260314-75e6-11ed-8abf-dac502259ad0.jpg

5945c23a-75e6-11ed-8abf-dac502259ad0.jpg

5988050a-75e6-11ed-8abf-dac502259ad0.jpg

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28622

    瀏覽量

    207935
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    132901
  • 智能體
    +關注

    關注

    1

    文章

    163

    瀏覽量

    10604

原文標題:CMU最新《多模態(tài)機器學習的基礎和最新趨勢》綜述

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2025年Next Token Prediction范式會統(tǒng)一模態(tài)

    訓練方法與推理策略 性能評測體系 現存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認為模態(tài)的 Token
    的頭像 發(fā)表于 01-21 10:11 ?37次閱讀
    2025年Next Token Prediction范式會統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    模態(tài)融合的創(chuàng)新與突破 機器人控制技術的另一個重要突破在于模態(tài)大模型的應用。相比于僅通過文字進行人機交互的傳統(tǒng)方法,現代
    發(fā)表于 12-29 23:04

    商湯日日新模態(tài)大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權威綜合評測權威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?301次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構建
    的頭像 發(fā)表于 12-03 15:18 ?184次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    中科創(chuàng)達推動下一代模態(tài)智能機器人創(chuàng)新

    具身智能在業(yè)界被普遍認為即將掀起人工智能領域的全新浪潮。人形機器人作為具身智能的絕佳載體,隨著模態(tài)大模型的迅猛發(fā)展,人形機器人的智能化程度將顯著提升,進而加速其產業(yè)化進程。2024
    的頭像 發(fā)表于 11-15 11:03 ?438次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關聯(lián),實現更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?513次閱讀

    通道開關濾波器的創(chuàng)新者,引領電磁兼容技術新趨勢

    維愛普|通道開關濾波器的創(chuàng)新者,引領電磁兼容技術新趨勢
    的頭像 發(fā)表于 10-16 14:25 ?269次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術的浩瀚星海中,模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨運的山海模態(tài)大模型,正式宣告“Her時代
    的頭像 發(fā)表于 08-27 15:20 ?414次閱讀

    深度學習中的無監(jiān)督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型的強大性能往往依賴于大量有標簽的數據進行訓練
    的頭像 發(fā)表于 07-09 10:50 ?875次閱讀

    如何看待半導體行業(yè)未來的新趨勢

    如何看待半導體行業(yè)未來的新趨勢
    的頭像 發(fā)表于 04-25 11:38 ?790次閱讀
    如何看待半導體行業(yè)未來的<b class='flag-5'>新趨勢</b>

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI模態(tài)
    發(fā)表于 04-18 17:01 ?639次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    AI機器人迎來模態(tài)模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態(tài)信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發(fā)表于 04-12 10:39 ?298次閱讀

    谷歌推出模態(tài)VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創(chuàng)新的模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內容,VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻,面部表情豐富,栩栩如生。
    的頭像 發(fā)表于 03-22 10:45 ?883次閱讀

    新趨勢下,國產數據庫或“春山可望”

    數據庫發(fā)展出現新趨勢
    的頭像 發(fā)表于 01-30 12:12 ?331次閱讀
    主站蜘蛛池模板: 特黄毛片| 欧美性一区二区三区| 爽a中文字幕一区| 亚欧一区| 1区2区3区4区| 婷婷六月久久综合丁香一二| 天天综合色一区二区三区| 色wwwww| 六月丁香婷婷天天在线| 成人免费视频一区| 天天做天天爱天天爽天天综合 | 亚洲 欧洲 日韩| 色噜噜狠狠狠综合曰曰曰| 欧美一区二区三区综合色视频| 黄色网址你懂得| 亚洲一区二区免费在线观看| 黄色录像欧美| 欧美大色网| 不卡视频一区| 色老板在线视频一区二区| 美女流白浆网站| 2018国产一级天天弄| 久热精品在线视频| 91亚洲国产成人久久精品网站| 高h细节肉爽文bl文| 日本最色网站| 国产精品视频网站你懂得| 国产精品久久久久久久久| 午夜污片| 操操操插插插| 99热这里精品| 欧美三级视频在线| 中文在线天堂网www| 国产精品1区2区3区| 美女视频黄a视频美女大全| 色男人综合| 爆操极品美女| 2021最新久久久视精品爱| 六月激情丁香| 亚洲 欧美 另类 综合 日韩 | 18美女扒开尿口无遮挡|