在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

2025年Next Token Prediction范式會統一多模態嗎

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2025-01-21 10:11 ? 次閱讀

訓練方法與推理策略

性能評測體系

現存挑戰與未來方向

綜述的完整目錄如下:

26da8d0c-d62a-11ef-9310-92fbcf53809c.png

26f099ee-d62a-11ef-9310-92fbcf53809c.png

多模態的 Tokenization

我們認為多模態的 Tokenization 是 MMNTP 的基石和最重要的部分,它將各種模態的信息(如圖像、視頻音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。

Tokenization 方法可以分為離散(Discrete Tokenization)和連續(Continuous Tokenization)兩種。離散標記化通過量化將原始信息映射到有限的離散空間,而連續標記化則不涉及量化,保留了數據的連續性質。下面的圖給出了兩種方式的示意圖。

26f802c4-d62a-11ef-9310-92fbcf53809c.png

2.1 Tokenizer 訓練方法

270f619e-d62a-11ef-9310-92fbcf53809c.png

本節針對圖片,視頻,音頻領域的 Tokenization 訓練方法進行了詳細的梳理和比較。首先總結了幾種常見的訓練方法,例如對比學習,自編碼器等,以及這些方法在不同模態上的應用與針對不同模態特點的改進,并按照不同的訓練方法歸納整理了不同類型的 Tokenizers,如下表所示:

271f3fb0-d62a-11ef-9310-92fbcf53809c.png

我們以表示能力(representation)和重建能力(reconstruction)為基點,重點討論了 Tokenizers 在訓練時存在的挑戰,例如離散型編碼器存在的編碼表塌陷,信息損失的問題以及一些改進措施例如 FSQ,LFQ 等方案,以及以 CLIP 為代表的連續型編碼器中主要存在的語義對齊,編碼效率,以及對于不同模態的數據,大家提出了哪些針對性的改進措施。

27319034-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型

273e03b4-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型一般結構如上圖所示,它主要由骨干模型(一般是一個 Transformer 模型),以及不同模態的 Tokenizer 與 De-Tokenizer 組成。Tokenizer將不同模態的信息轉換為 Token 序列,De-Tokenizer 則將 Token 序列轉換為原始模態的信息。

274fd1a2-d62a-11ef-9310-92fbcf53809c.png

如上圖所示,我們將 MMNTP 模型進一步分為兩類,組合式(Compositional)和統一(Unified)式。組合模型依賴于強大的外部編碼器例如 CLIP 和解碼器例如 SD3 來理解和生成多模態信息,而統一模型則使用輕量級的編碼器和解碼器例如 VQVAE,將大部分理解和生成任務交給骨干模型。本文對這兩種模型結構進行了詳細討論,并比較了它們的優缺點。

2761d1b8-d62a-11ef-9310-92fbcf53809c.png

對于不同的多模態任務來說,MMNTP 模型可以以一種統一的方式處理不同任務,區別之處在于不同任務的輸入輸出不同。上圖以圖片模態為例子,列出來了同一個 MMNTP 模型結構如何進行圖片理解例如 VQA,圖片生成,以及基于文字指令的圖片編輯任務。

只需要替換輸入輸出的組合形式,同一個模型架構就可以完成不同的任務,這體現了 MMNTP 模型在多模態任務上的統一性。本文針對圖片,視頻,音頻模態的 MMNTP 模型進行了詳細的討論,并根據結構類型進行了梳理,如下表所示。

277a2f42-d62a-11ef-9310-92fbcf53809c.png

278ed762-d62a-11ef-9310-92fbcf53809c.png

訓練范式

4.1 訓練任務的類型

27a5037a-d62a-11ef-9310-92fbcf53809c.png

一旦將不同模態的內容轉化為序列化的標 Tokens,就可以使用統一的骨 MMNTP 模型來訓練,以解決各種理解和生成任務。

本文將訓練任務按照生成的 Token 類型不同分為兩類,離散 Token 預測和連續 Token 預測。二者的區別在于預測的 token 是離散的還是連續的,這會對應不同的訓練任務,以及特殊的輸出頭的結構。

例如多模態理解任務往往以語言作為輸出,則需要使用語言模型頭作為輸出頭,進行離散 Token 預測。如果將 Diffusion 模型和 NTP 模型結合,則需要使用 Diffusion 模型頭作為輸出頭,進行連續 Token 預測。

4.2 訓練階段

27bbc092-d62a-11ef-9310-92fbcf53809c.png

和語言模型類似,MMNTP 模型的訓練也可以分為三個階段,如上圖所示,分別是模態對齊預訓練,指令微調和偏好學習。

這里的預訓練階段,通常指的是在多模態數據-文本對數據上進行預訓練,以將不同模態的信息對齊到語言空間。指令微調階段是針對不同的下游任務,例如理解和生成類任務,用標注好的數據進行訓練。偏好學習在 MMNTP 模型中的研究剛剛起步,主要將模型的輸出和人類的偏好進行對齊。

本文詳細這三個階段的相關研究工作,并根據任務類型進行了歸納整理。

4.3 測試時的Prompt工程

27cd65d6-d62a-11ef-9310-92fbcf53809c.png

Prompt 工程是提升 LLM 模型效果的重要手段,在 MMNTP 模型中,借助了 LLM 繼基座模型的能力,Prompt 工程同樣重要。本文對 MMNTP 模型中的 Prompt 工程進行了詳細的討論,如上圖所示,分為多模態的上下文學習(Multimodal In-Context Learning)和多模態思維鏈(Multimodal Chain-of-Thought)兩種方法。

27e42294-d62a-11ef-9310-92fbcf53809c.png

如上圖所示,多模態的上下文學習指的是在輸入中加入多模態任務的例子,以幫助模型更好地理解任務。多模態思維鏈則是指在輸入中加入一些思維鏈的提示,例如“感知”,“推理過程”等,以促使模型更好地進行多模態推理。我們將這些方法進行整理,如下表所示。

27fc1124-d62a-11ef-9310-92fbcf53809c.png

2815b69c-d62a-11ef-9310-92fbcf53809c.png

訓練數據集與性能評測

281c0042-d62a-11ef-9310-92fbcf53809c.png

在綜述中,我們還對 MMNTP 模型的訓練數據集進行了詳細的討論,包括數據集的構建,數據集的規模,以及數據集的多樣性。同時,我們也比較了 NTP 模型和非 NTP 模型在多模態任務上的表現,如上圖所示,在大規模理解任務例如 VQAv2,MMMU上,NTP 模型表現全面優于非 NTP 模型。

在生成任務評測數據例如 Imagenet,GenEval,我們觀察到 NTP 模型在和純 Diffusion 取得了不相上下的效果,甚至在某些任務上表現更好,這展示了 NTP 模型在統一不同多模態任務上的潛力。

2836d354-d62a-11ef-9310-92fbcf53809c.png

存在的挑戰

本文提出了四個目前尚未解決的挑戰,主要源于 MMNTP 訓練范式。這些挑戰包括:

如何更好地利用無監督的多模態數據來擴展 MMNTP 模型

克服多模態干擾并增強協同作用

提高 MMNTP 模型的訓練和推理效率

將 MMNTP 作為更廣闊任務的通用接口。

這些挑戰的解決對于 MMNTP 范式實現多模態智能的發展至關重要。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3662

    瀏覽量

    135010
  • NTP
    NTP
    +關注

    關注

    1

    文章

    176

    瀏覽量

    13940

原文標題:2025年Next Token Prediction范式會統一多模態嗎?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    麻省理工科技評論:2025AI領域突破性技術

    《麻省理工科技評論》于1月3日公布2025十大突破性技術,其中AI相關技術有:生成式AI搜索:整合源數據,提供獨特答案,掃描設備文件快速識別對象,或將加速傳統搜索引擎終結,推動個性化AI助手普及
    的頭像 發表于 01-07 23:40 ?199次閱讀
    麻省理工科技評論:<b class='flag-5'>2025</b><b class='flag-5'>年</b>AI領域突破性技術

    商湯日日新模態大模型權威評測第

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第
    的頭像 發表于 12-20 10:39 ?295次閱讀

    2025電子設計與制造技術研討

    案例分享。如此的技術干貨,不容錯過! 活動主題: “2025 電子設計與制造技術研討”&“探索前沿科技,共話創新未來” 參與人員: 1. 電子行業的工程師、技術人員、研發人員等專業人士
    發表于 12-18 10:23

    文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?183次閱讀
    <b class='flag-5'>一</b>文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    文理解模態大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態大語言模型的論文和博客,在此基礎上,推薦了篇解讀
    的頭像 發表于 12-02 18:29 ?414次閱讀
    <b class='flag-5'>一</b>文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——上

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,模態
    的頭像 發表于 10-18 09:39 ?512次閱讀

    云知聲山海模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第的優異成
    的頭像 發表于 10-12 14:09 ?316次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型UniGPT-mMed登頂MMMU測評榜首

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Met
    的頭像 發表于 09-27 11:44 ?427次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?413次閱讀

    統一多云管理平臺怎么用?

     統一多云管理平臺的使用主要涉及資源納管、費用控制和智能運維等方面。統一多云管理平臺是種能夠同時管理多種公有云、私有云以及傳統IT環境的資源,并實現自動化和服務化交付的工具。它為企業提供了強大
    的頭像 發表于 08-14 11:28 ?253次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新代 LLM-Based的自然交互,同時
    發表于 04-18 17:01 ?639次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?296次閱讀

    谷歌推出模態VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創新的模態模型能夠讓靜態肖像圖“活”起來并“說話”。用戶只需提供張人物肖像照片和段音頻內容,VLOGGER AI就能讓圖
    的頭像 發表于 03-22 10:45 ?883次閱讀

    蘋果發布300億參數MM1模態大模型

    近日,科技巨頭蘋果公司在篇由多位專家共同撰寫的論文中,正式公布了其最新的模態大模型研究成果——MM1。這款具有高達300億參數的模態
    的頭像 發表于 03-19 11:19 ?936次閱讀
    主站蜘蛛池模板: 亚洲欧美日本视频| 亚洲91色| 黄网站色在线视频免费观看| 国产精品久久久久久久9999| 天天爽夜夜爽免费看| 午夜在线免费观看视频| 天天狠狠操| 永久影视| 国产一级特黄特色aa毛片| 欧美性野久久久久久久久| 欧美日韩色综合网站| 激情丁香婷婷| 免费日本网站| 国产拍拍拍免费视频网站| bt种子在线搜索| 沟沟人体一区二区| 黄色片网站大全| 最新看片网址| 免费看黄资源大全高清| 又粗又爽又色男女乱淫播放男女| 午夜福利国产一级毛片| 97干97吻| 免费人成在线观看视频播放| 2022国产情侣真实露脸在线| 午夜视频免费在线| 亚洲成人在线免费| 日本黄色短视频| 国产成在线人视频免费视频| 天天爽夜夜爽8888视频精品| 国产精品久线观看视频| 性免费视频| 色综合久久久久综合99| 黄色香蕉网| 天天干天天爱天天操| 五月天激情丁香| 一区二区三区伦理高清| 琪琪午夜伦埋大全影院| 女人张开双腿让男人桶完整| 不卡无毒免费毛片视频观看| 日日摸夜夜爽夜夜爽出水| 欧美性极品hd高清视频|