在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LeCun世界模型首項研究來了:自監督視覺,已開源

AI智勝未來 ? 來源:機器之心 ? 2023-06-14 16:53 ? 次閱讀

AI 像人類一樣學習和推理,這是人工智能邁向人類智能的重要一步。圖靈獎得主 Yann LeCun 曾提出自監督 + 世界模型的解決方案,如今終于有了第一個實實在在的視覺模型。

去年初,Meta 首席 AI 科學家 Yann LeCun 針對「如何才能打造出接近人類水平的 AI」提出了全新的思路。他勾勒出了構建人類水平 AI 的另一種愿景,指出學習世界模型(即世界如何運作的內部模型)的能力或許是關鍵。這種學到世界運作方式內部模型的機器可以更快地學習、規劃完成復雜的任務,并輕松適應不熟悉的情況。

LeCun 認為,構造自主 AI 需要預測世界模型,而世界模型必須能夠執行多模態預測,對應的解決方案是一種叫做分層 JEPA(聯合嵌入預測架構)的架構。該架構可以通過堆疊的方式進行更抽象、更長期的預測。

6 月 9 日,在 2023 北京智源大會開幕式的 keynote 演講中,LeCun 又再次講解了世界模型的概念,他認為基于自監督的語言模型無法獲得關于真實世界的知識,這些模型在本質上是不可控的。

f37b7b1e-0a8e-11ee-962d-dac502259ad0.png

今日,Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯合嵌入預測架構(Image Joint Embedding Predictive Architecture, I-JEPA),它通過創建外部世界的內部模型來學習, 比較圖像的抽象表示(而不是比較像素本身)。

I-JEPA 在多項計算機視覺任務上取得非常不錯的效果,并且計算效率遠高于其他廣泛使用的計算機視覺模型。此外 I-JEPA 學得的表示也可以用于很多不同的應用,無需進行大量微調。

f3e9fbde-0a8e-11ee-962d-dac502259ad0.png

舉個例子,Meta 在 72 小時內使用 16 塊 A100 GPU 訓練了一個 632M 參數的視覺 transformer 模型,還在 ImageNet 上實現了 low-shot 分類的 SOTA 性能,其中每個類只有 12 個標簽樣本。其他方法通常需要 2 到 10 倍的 GPU 小時數,并在使用相同數據量訓練時誤差率更高。

相關的論文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。當然,所有的訓練代碼和模型檢查點都將開源。

f3ff8ca6-0a8e-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2301.08243.pdfGitHub

地址:https://t.co/DgS9XiwnMz

通過自監督學習獲取常識型知識

I-JEPA 基于一個事實,即人類僅通過被動觀察就可以了解關于世界的大量背景知識,這些常識信息被認為是實現智能行為的關鍵。

通常,AI 研究人員會設計學習算法來捕獲現實世界的常識,并將其編碼為算法可訪問的數字表征。為了高效,這些表征需要以自監督的方式來學習,即直接從圖像或聲音等未標記的數據中學習,而不是從手動標記的數據集中學習。

在高層級上,JEPA 的一個輸入中某個部分的表征是根據其他部分的表征來預測的。同時,通過在高抽象層次上預測表征而不是直接預測像素值,JEPA 能夠直接學習有用的表征,同時避免了生成模型的局限性。

相比之下,生成模型會通過刪除或扭曲模型輸入的部分內容來學習。然而,生成模型的一個顯著缺點是模型試圖填補每一點缺失的信息,即使現實世界本質上是不可預測的。因此,生成模型過于關注不相關的細節,而不是捕捉高級可預測的概念。

f43b37a6-0a8e-11ee-962d-dac502259ad0.png

自監督學習的通用架構,其中系統學習捕獲其輸入之間的關系。

邁向能力廣泛的 JEPA 的第一步

I-JEPA 的核心思路是以更類似于人類理解的抽象表征來預測缺失信息。與在像素 /token 空間中進行預測的生成方法相比,I-JEPA 使用抽象的預測目標,潛在地消除了不必要的像素級細節,從而使模型學習更多語義特征。

另一個引導 I-JEPA 產生語義表征的核心設計是多塊掩碼策略。該研究使用信息豐富的上下文來預測包含語義信息的塊,并表明這是非常必要的。

f48cbba8-0a8e-11ee-962d-dac502259ad0.png

I-JEPA 使用單個上下文塊來預測源自同一圖像的各種目標塊的表征。

I-JEPA 中的預測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態圖像中的空間不確定性。更重要的是,這個世界模型是語義級的,因為它預測圖像中不可見區域的高級信息,而不是像素級細節。

f4aa8b88-0a8e-11ee-962d-dac502259ad0.png

預測器如何學習建模世界的語義。對于每張圖像,藍框外的部分被編碼并作為上下文提供給預測器。然后預測器輸出它期望在藍框內區域的表示。為了可視化預測,Meta 訓練了一個生成模型, 它生成了由預測輸出表示的內容草圖,并在藍框內顯示樣本輸出。很明顯,預測器識別出了應該填充哪些部分的語義(如狗的頭部、鳥的腿、狼的前肢、建筑物的另一側)。

為了理解模型捕獲的內容,Meta 訓練了一個隨機解碼器,將 I-JEPA 預測的表示映射回像素空間,這展示出了探針操作后在藍框中進行預測時的模型輸出。這種定性評估表明,I-JEPA 正確捕獲了位置不確定性,并生成了具有正確姿態的高級對象部分(如狗的頭部、狼的前肢)。

簡而言之,I-JEPA 能夠學習對象部分的高級表示,而不會丟棄它們在圖像中的局部位置信息。

高效率、強性能

I-JEPA 預訓練在計算上也很高效,在使用更多計算密集型數據增強來生成多個視圖時不會產生任何開銷。目標編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。

實驗發現,I-JEPA 在不使用手動視圖增強的情況下學習了強大的現成語義表示,具體可見下圖。此外 I-JEPA 還在 ImageNet-1K 線性探針和半監督評估上優于像素和 token 重建方法。

f4f32668-0a8e-11ee-962d-dac502259ad0.png

ImageNet-1k 數據集上的線性評估。

I-JEPA 還能與以往在語義任務上依賴手動數據增強的方法競爭。相比之下,I-JEPA 在對象計數和深度預測等低級視覺任務上取得了更好的性能。通過使用較小剛性歸納偏置的更簡單模型,I-JEPA 適用于更廣泛的任務集合。

f51ac466-0a8e-11ee-962d-dac502259ad0.png

low shot 分類準確性:使用 1% 標簽時 ImageNet-1k 上的半監督評估結果(每類只有 12 張標簽圖像)。

AI 智能向人類水平更近了一步

I-JEPA 展示了無需通過手動圖像變換來編碼額外知識時,學習有競爭力的現成圖像表示的潛力。繼續推進 JEPA 以從更豐富模態中學習更通用世界模型將變得特別有趣,比如人們從一個短上下文中對視頻中的將來事件做出長期空間和時間預測,并利用音頻或文本 prompt 對這些預測進行調整。

Meta 希望將 JEPA 方法擴展到其他領域,比如圖像 - 文本配對數據和視頻數據。未來,JEPA 模型可以在視頻理解等任務中得到應用。這是應用和擴展自監督方法來學習更通用世界模型的重要一步。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4768

    瀏覽量

    129261
  • AI
    AI
    +關注

    關注

    87

    文章

    31493

    瀏覽量

    270049
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49116

原文標題:LeCun世界模型首項研究來了:自監督視覺,像人一樣學習和推理,已開源

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    “悟道3.0”系列大模型全面開源,有助于AI應用普及!

    新階段,此次發布的一系列成果包括“悟道·天鷹”(Aquila)語言大模型系列、天秤(FlagEval)開源模型評測體系與開放平臺、“悟道 · 視界”視覺
    的頭像 發表于 06-14 00:06 ?2003次閱讀
    “悟道3.0”系列大<b class='flag-5'>模型</b>全面<b class='flag-5'>開源</b>,有助于AI應用普及!

    為什么生成模型值得研究

    模型似乎只提供了更多的圖像,而世界上并不缺少圖像。研究生成模型有幾個原因,包括: ●從生成模型中進行訓練和采樣是對我們表示和操作高維概率分
    發表于 09-15 06:03

    TextTopicNet模型:以監督學習方式學習區別視覺特征

    大規模帶標注的數據集的出現是深度學習在計算機視覺領域取得巨大成功的關鍵因素之一。然而,監督式學習存在一個主要問題:過于依賴大規模數據集,而數據集的收集和手動數據標注需要耗費大量的人力成本。
    的頭像 發表于 07-31 17:50 ?1w次閱讀
    TextTopicNet<b class='flag-5'>模型</b>:以<b class='flag-5'>自</b><b class='flag-5'>監督</b>學習方式學習區別<b class='flag-5'>視覺</b>特征

    監督學習與Transformer相關論文

    將在明年5月4日舉行,目前,本次大會投稿已經結束,最后共有3013篇論文提交。ICLR 采用公開評審機制,任何人都可以提前看到這些論文。 為了分析最新研究動向,我們精選了涵蓋監督
    的頭像 發表于 11-02 15:50 ?2730次閱讀
    <b class='flag-5'>自</b><b class='flag-5'>監督</b>學習與Transformer相關論文

    基于人工智能的監督學習詳解

    監督學習讓 AI 系統能夠從很少的數據中學習知識,這樣才能識別和理解世界上更微妙、更不常見的表示形式。
    的頭像 發表于 03-30 17:09 ?6045次閱讀
    基于人工智能的<b class='flag-5'>自</b><b class='flag-5'>監督</b>學習詳解

    人的大腦和監督學習模型的相似度有多高?

    麥吉爾大學和魁北克人工智能研究所(Mila)的計算神經科學家布萊克-理查茲(Blake Richards)說:「我認為毫無疑問,大腦所做的90%都是監督學習。」
    的頭像 發表于 08-19 09:50 ?903次閱讀

    基于視覺Transformer的監督視頻異常檢測架構進行腸息肉檢測的研究

    本文提出一種有效的基于視覺Transformer的弱監督視頻異常檢測架構來實現精準檢測結直腸息肉。這也是篇利用弱監督視頻標簽來進行腸息肉檢測的研究
    的頭像 發表于 09-27 11:15 ?1800次閱讀

    LeCun新作:全面綜述下一代「增強語言模型

    最近圖靈獎得主Yann LeCun參與撰寫了一篇關于「增強語言模型」的綜述,回顧了語言模型與推理技能和使用工具的能力相結合的工作,并得出結論,這個新的研究方向有可能解決傳統語言
    的頭像 發表于 03-03 11:03 ?1052次閱讀

    LeCun世界模型首個研究監督視覺像人一樣學習和推理!

    今日,Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯合嵌入預測架構(Image Joint Embedd
    的頭像 發表于 06-15 15:47 ?389次閱讀
    <b class='flag-5'>LeCun</b><b class='flag-5'>世界</b><b class='flag-5'>模型</b>首個<b class='flag-5'>研究</b>!<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>視覺</b>像人一樣學習和推理!

    Meta開源I-JEPA,“類人”AI模型

    Meta 宣布推出一個全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA),可通過對圖像的自我監督學習來學習世界的抽象表征
    的頭像 發表于 06-18 17:47 ?1130次閱讀
    Meta<b class='flag-5'>開源</b>I-JEPA,“類人”AI<b class='flag-5'>模型</b>

    「悟道·視界」視覺模型系列,6領先成果技術詳解

    日前,智源「悟道·視界」通用視覺模型系列,帶來計算機視覺多任務處理能力方面的6國際領先技術,迎接通用視覺智能曙光降臨,包括: 在多模態序
    的頭像 發表于 06-27 16:40 ?896次閱讀

    基礎模型監督預訓練的數據之謎:大量數據究竟是福還是禍?

    大型語言模型如 ChatGPT 的成功彰顯了海量數據在捕捉語言模式和知識方面的巨大潛力,這也推動了基于大量數據的視覺模型研究。在計算視覺領域
    的頭像 發表于 07-24 16:55 ?588次閱讀
    基礎<b class='flag-5'>模型</b><b class='flag-5'>自</b><b class='flag-5'>監督</b>預訓練的數據之謎:大量數據究竟是福還是禍?

    NeurIPS 2023 | 全新的監督視覺預訓練代理任務:DropPos

    工作, 目前 DropPos 已被 NeurIPS 2023 接收,相關代碼開源,有任何問題歡迎在 GitHub 提出。 TL;DR 我們提出了一種全新的監督代理任務 DropPo
    的頭像 發表于 10-15 20:25 ?568次閱讀
    NeurIPS 2023 | 全新的<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>視覺</b>預訓練代理任務:DropPos

    視覺模型weak-to-strong的實現

    幾天前,OpenAI「超級對齊」(Superalignment)團隊發布了成立以來的篇論文,聲稱開辟了對超人類模型進行實證對齊的新研究方向。GPT-2能監督GPT-4,Ilya帶頭O
    的頭像 發表于 01-08 11:07 ?480次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>模型</b>weak-to-strong的實現

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?440次閱讀
    機器人基于<b class='flag-5'>開源</b>的多模態語言<b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 欧美三级欧美一级 | 国产1区2区三区不卡 | 人人揉揉香蕉大免费不卡 | 日本特黄在线观看免费 | 久久综合久久88 | 日本网站黄色 | 交在线观看网站视频 | 精品国产午夜久久久久九九 | 免费看啪啪网站 | 国产三片高清在线观看 | 亚洲光棍天堂 | 99久久免费中文字幕精品 | 亚洲人成网站色在线观看 | 特黄特色大片免费视频大全 | 99久久国产免费中文无字幕 | 久久久久国产精品 | 天天操天天添 | 一级特黄a 大片免费 | 国产色妞妞在线观看 | 久久瑟 | 中文字幕一区二区三区在线观看 | 日本黄色免费片 | 国产成人一区二区在线不卡 | 天天夜天天干 | 亚洲a影院 | 午夜亚洲 | 天天干天天操天天操 | 夜夜五月天 | 国产成人精品亚洲77美色 | 久久夜色精品国产噜噜 | 欧美黑粗特黄午夜大片 | 禁h粗大太大好爽好涨受不了了 | 精品国产高清在线看国产 | 久久亚洲国产成人精品性色 | 天堂最新版免费观看 | 最新在线视频 | 国产一级特黄毛片 | 日本不卡视频一区二区三区 | 午夜dy888理论在线播放 | 依依成人精品无v国产 | 一级做a爱片在线播放 |