在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌新作SPAE:GPT等大語言模型可以通過上下文學習解決視覺任務

CVer ? 來源:機器之心 ? 2023-07-09 15:35 ? 次閱讀

LLM 的能力還可以發揮到機器學習的更多子領域。

當前,大型語言模型(LLM)已經掀起自然語言處理(NLP)領域的變革浪潮。我們看到 LLM 具備強大的涌現能力,在復雜的語言理解任務、生成任務乃至推理任務上都表現優異。這啟發人們進一步探索 LLM 在機器學習另一子領域 —— 計算機視覺(CV)方面的潛力。 LLM 的一項卓越才能是它們具備上下文學習的能力。上下文學習不會更新 LLM 的任何參數,卻在各種 NLP 任務中卻展現出了令人驚艷的成果。那么,GPT 能否通過上下文學習解決視覺任務呢? 最近,來自谷歌和卡內基梅隆大學(CMU)的研究者聯合發表的一篇論文表明:只要我們能夠將圖像(或其他非語言模態)轉化為 LLM 能夠理解的語言,這似乎是可行的。

d2eb5ab8-1da8-11ee-962d-dac502259ad0.png

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs 代碼:https://github.com/google-research/magvit/ 論文地址:https://arxiv.org/abs/2306.17842 這篇論文揭示了 PaLM 或 GPT 在通過上下文學習解決視覺任務方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。這種新方法使得 LLM 能夠執行圖像生成任務,而無需進行任何參數更新。這也是使用上下文學習使得 LLM 生成圖像內容的首個成功方法。 我們先來看一下通過上下文學習,LLM 在生成圖像內容方面的實驗效果。 例如,在給定上下文中,通過提供 50 張手寫圖像,論文要求 PaLM 2 回答需要生成數字圖像作為輸出的復雜查詢:

d30951bc-1da8-11ee-962d-dac502259ad0.png

還能在有圖像上下文輸入的情況下生成逼真的現實圖像:

d326f276-1da8-11ee-962d-dac502259ad0.png

除了生成圖像,通過上下文學習,PaLM 2 還能進行圖像描述:

d3495da2-1da8-11ee-962d-dac502259ad0.png

還有與圖像相關問題的視覺問答

d35c67da-1da8-11ee-962d-dac502259ad0.png

甚至可以去噪生成視頻

d3bee662-1da8-11ee-962d-dac502259ad0.gif

方法概述 實際上,將圖像轉化為 LLM 能夠理解的語言,是在視覺 Transformer(ViT)論文中就已經研究過的問題。在 Google 和 CMU 的這篇論文中,他們將其提升到了一個新的層次 —— 使用實際的單詞來表示圖像。 這種方法就像建造一個充滿文字的塔樓,捕捉圖像的語義和細節。這種充滿文字的表示方法讓圖像描述可以輕松生成,并讓 LLM 可以回答與圖像相關的問題,甚至可以重構圖像像素。

d3d0f60e-1da8-11ee-962d-dac502259ad0.png

具體來說,該研究提出使用經過訓練的編碼器和 CLIP 模型將圖像轉換為一個 token 空間;然后利用 LLM 生成合適的詞法 token;最后使用訓練有素的解碼器將這些 token 轉換回像素空間。這個巧妙的過程將圖像轉換為 LLM 可以理解的語言,使我們能夠利用 LLM 在視覺任務中的生成能力。

d3ec8018-1da8-11ee-962d-dac502259ad0.png

實驗及結果 該研究將 SPAE 與 SOTA 方法 Frozen 和 LQAE 進行了實驗比較,結果如下表 1 所示。SPAEGPT 在所有任務上性能均優于LQAE,且僅使用 2% 的 token。

d417351a-1da8-11ee-962d-dac502259ad0.png

總的來說,在 mini-ImageNet 基準上的測試表明,SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。

d42f9be6-1da8-11ee-962d-dac502259ad0.png

為了驗證 SPAE 設計方法的有效性,該研究進行了消融實驗,實驗結果如下表 4 和圖 10 所示:

d4442ec6-1da8-11ee-962d-dac502259ad0.png

d45c0938-1da8-11ee-962d-dac502259ad0.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15372
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22035

原文標題:谷歌新作SPAE:GPT等大語言模型可以通過上下文學習解決視覺任務

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    為什么transformer性能這么好?Transformer的上下文學習能力是哪來的?

    為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer 已成為深度
    的頭像 發表于 09-25 12:05 ?1367次閱讀
    為什么transformer性能這么好?Transformer的<b class='flag-5'>上下文學習</b>能力是哪來的?

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網頁內容和書籍,不僅掌握了語言的語法、語義和上下文信息,還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    不同語境下的不同語義。而動態詞向量語言模型中對詞的表示隨著上下文語境的不同而動態變化,依賴當前所在的句子或段落的語境。以ELMo為例,將詞序列輸入經過預訓練的ELMo
    發表于 05-05 12:17

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    的應用。MAML算法通過二階優化找到對任務變化敏感的模型參數,實現了快速適應。上下文學習則引入了注意力機制,使模型能夠根據當前場景動態調整行
    發表于 12-24 15:03

    關于進程上下文、中斷上下文及原子上下文的一些概念理解

    狀態。所以在進程上下文中引用current是有意義的。 三、中斷上下文 硬件通過觸發信號,向CPU發送中斷信號,導致內核調用中斷處理程序,進入內核空間。這個過程中,硬件的一些變量和參
    發表于 09-06 09:58

    進程上下文與中斷上下文的理解

    )進程下文:其是指切換到內核態后執行的程序,即進程運行在內核空間的部分。2.中斷上下文:(1)中斷上文:硬件通過中斷觸發信號,導致內核調用中斷處理程序,進入內核空間。這個過程中,硬件的一些變量和參數也要
    發表于 12-11 19:45

    進程上下文/中斷上下文及原子上下文的概念

    為什么會有上下文這種概念進程上下文/中斷上下文及原子上下文的概念
    發表于 01-13 07:17

    中斷中的上下文切換詳解

    也是統一在Systick_Handler中斷處理函數中進行的(具體代碼可以參考irq_cm3.S)。  總結一下,RTX的內核是分態的,在中斷和任務上下文中進行信號量的post動作根
    發表于 03-23 17:18

    基于多Agent的用戶上下文自適應站點構架

    自適應站點很少考慮對用戶環境的自適應。為此,提出用戶上下文自適應站點的概念,給出基于多Agent技術的用戶上下文自適應站點構架模型。闡述用戶上下文獲取、挖掘過程以及站
    發表于 04-11 08:49 ?13次下載

    終端業務上下文的定義方法及業務模型

    該文針對業務上下文僅關注業務質量較少考慮用戶終端環境的現狀,提出終端業務上下文的概念,為普適業務的開展提供必要的信息支撐。給出一種終端業務上下文的通用定義方法
    發表于 03-06 11:06 ?11次下載

    基于上下文相似度的分解推薦算法

    模型,再對目標用戶的K個鄰居用戶建立移動用戶一上下文一移動服務三維張量分解模型,獲得目標用戶的移動服務預測值,生成移動推薦。實驗結果顯示,與余弦相似性方法、Pearson相關系數方法和Cosinel改進相似度
    發表于 11-27 17:42 ?0次下載

    Web服務的上下文的訪問控制策略模型

    的訪問控制策略模型模型的核心思想是將各種與訪問控制有關的信息統一抽象表示為一個上下文概念,以上下文為中心來制定和執行訪問控制策略,上下文
    發表于 01-05 16:32 ?0次下載

    我們能否擴展現有的預訓練 LLM 的上下文窗口

    50 頁的文字,意味著在對話或生成文本時,GPT-4 最多可以記住 50 頁左右內容。? ? 一般來講,大語言模型處理上下文窗口大小的能力
    的頭像 發表于 06-30 11:09 ?650次閱讀
    我們能否擴展現有的預訓練 LLM 的<b class='flag-5'>上下文</b>窗口

    首篇!Point-In-Context:探索用于3D點云理解的上下文學習

    隨著基于廣泛數據訓練的大模型興起,上下文學習(In-Context Learning)已成為一種新的學習范式,在自然語言處理(NLP)和計算機視覺
    的頭像 發表于 07-13 14:41 ?774次閱讀
    首篇!Point-In-Context:探索用于3D點云理解的<b class='flag-5'>上下文學習</b>

    更強更通用:智源「悟道3.0」Emu多模態大模型開源,在多模態序列中「補全一切」

    熱度。Flamingo 具備強大的多模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與一個預訓練視覺編碼器結合,并插
    的頭像 發表于 07-16 20:45 ?724次閱讀
    更強更通用:智源「悟道3.0」Emu多模態大<b class='flag-5'>模型</b>開源,在多模態序列中「補全一切」
    主站蜘蛛池模板: 免费看黄色一级毛片| 午夜在线视频观看| 人人爽天天碰天天躁夜夜躁| 日韩a一级欧美一级| 欧美αv| 狠狠色视频| 一级片免费在线观看视频| 手机在线观看你懂得| аⅴ资源中文在线天堂| 最新亚洲一区二区三区四区| 欧美深深色噜噜狠狠yyy| 亚洲人成网站色7777| 一区二区三区高清不卡| 国产午夜三级| 天天舔天天摸| 久久久夜色精品国产噜噜| 在线www 天堂网在线| 久久久久久国产精品免费免 | 日本视频不卡| 五月婷婷免费视频| 久久婷婷激情综合色综合也去| 手机看片1024精品日韩| 免费在线观看一区二区| 色免费看| 国产成人黄网址在线视频| 日本在线看小视频网址| 欧美人与zoxxxx视频| 亚洲午夜久久久精品影院视色 | 天天操人人爱| 国产精品爱啪在线线免费观看 | video另类蛇交| 国产日日夜夜| 5g影院天天爽| 日韩成人黄色| 欧美精品影院| 狠狠色噜狠狠狠狠| 狠狠色丁香婷婷久久| 性欧美处| 婷婷丁香社区| 大香伊在人线免费| 性欧美大战久久久久久久野外|