微軟視覺語言模型有顯著超越人類的表現

視覺語言（Vision-Language，VL）系統允許為文本查詢搜索相關圖像（或反之），并使用自然語言描述圖像的內容。一般來說，一個VL系統使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現。

當VinVL與OSCAR和vivo等VL融合模塊結合后，微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一，包括視覺問題回答（VQA）、微軟COCO圖像字幕和新穎對象字幕（nocaps）。微軟研究團隊還強調，在nocaps排行榜上，這種新的VL系統在CIDEr（92.5對85.3）方面的表現明顯超過了人類的同形式表現。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現出了巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益，正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結果，比如在圖像字幕基準上超越了人類的表現，但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括（1）利用海量圖像分類/標記數據，進一步擴大對象屬性檢測預訓練的規模；（2）將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型，可以像人類一樣將視覺概念建立在自然語言中，反之亦然。

微軟VinVL正在被整合到Azure認知服務中，Azure認知服務為微軟的各種服務提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發布VinVL模型和源代碼。
責編AJX

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6598

瀏覽量
104063
圖像

圖像

+關注

關注
2

文章
1084

瀏覽量
40466
模型

模型

+關注

關注
1

文章
3243

瀏覽量
48840

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

日前，加州大學的研究人員攜手英偉達，共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力，為智能機器人的自主導航提供了一種全新的解決方案。

發表于 12-13 10:51 ?260次閱讀

大語言模型：原理與工程實踐+初識2

的一系列變革。大語言模型是深度學習的應用之一，可以認為，這些模型的目標是模擬人類交流，為了理解和生成人類

發表于 05-13 00:09

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

微軟準備推出全新人工智能語言模型

微軟近期傳出消息，正在秘密研發一款全新的人工智能語言模型，這款模型在規模上預計將具備與谷歌和OpenAI等業界巨頭相抗衡的實力。據悉，這款新模型

發表于 05-08 09:30 ?426次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

類任務上表現出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務，類似于人類的系統2，如數字推理等。然而，隨著參數量的增加，大語言模型在這類任務上并未出現質的飛

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

，還已成為知名企業辦公文檔工具的重要組成部分，助力用戶日常生活、學習和職業發展。值得注意的是，大語言模型在文案創作方面的表現存在顯著差異。因此，在評測大

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的預訓練

如此卓越的性能，就是通過其核心能力對海量數據進行預訓練，再進行微調或對其什么型更好的根據人類的指令和偏好，發揮這些性能。隨著語言模型參數的不斷增加，模型完成各個任務的效果也得到了不同程

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

維基百科、網頁內容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數量，已達數億甚至數十億級別。這種規模賦

發表于 05-04 23:55

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的 NVIDIA GPU 上運行的大

發表于 04-28 10:36 ?567次閱讀

全球最強大模型易主，GPT-4被超越

近日，AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型，其中包括最強版Claude 3 Opus。據該公司稱，Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面

發表于 03-05 09:58 ?660次閱讀

谷歌模型軟件有哪些功能

谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言模型，

發表于 03-01 16:20 ?656次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?422次閱讀

模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

近期的大語言模型（LLM）在自然語言理解和生成上展現出了接近人類的強大能力，遠遠優于先前的BERT等預訓練模型（PLM）。

發表于 01-04 14:06 ?463次閱讀

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

。 ? 2023年，大語言模型及其在人工智能領域的應用已然成為全球科技研究的熱點，其在規模上的增長尤為引人注目，參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉

發表于 01-02 09:28 ?2967次閱讀

精選推薦
更多

文章

資料

帖子

2024過去了，留下十個科技記憶

腦極體
1天前

532 閱讀

兩款VR頭顯大拆解，都用了哪些芯片？

拍明芯城
1天前

404 閱讀

屏蔽柵MOSFET技術簡介

翠展微電子
1天前

386 閱讀

基于LKS32MC07x系列MCU的超高速清潔電器解決方案

晶豐明源
1天前

415 閱讀

基于瑞薩電子RA6T2 MCU的電機控制讓吸塵器更智能

瑞薩MCU小百科
1天前

346 閱讀

基于Multisim的電力電子電路仿真技術

王軍
194

10積分

200下載

監獄犯人專用防拆卸腕帶使用說明

lumnsho
78 KB

免費

0下載

DSP基礎與應用系統設計

yezi888
14.8 MB

免費

2177下載

Firefox Focus隱私保護瀏覽器

李玉蘭
4.00 MB

免費

0下載

ulthon_admin后臺管理模板

劉滿貴
3.23 MB

免費

0下載

【飛凌嵌入式OK3588J-C開發板體驗】OK3588J-C開發板的ffmpeg編解碼、HDMI輸入及編碼

dutong0321
1天前

146 閱讀

采集值突然驟降

塵埃sawdsa
20小時前

166 閱讀

2024 電機控制年度技術分享會來啦！！！

ElecFans小喇叭
1天前

467 閱讀

[廣東龍芯2K1000/2K500開發板] OpenWRT 使用說明

jf_38522704
10月前

5442 閱讀

使用單片機驅動DAC088S085無反應

jf_68383328
1天前

623 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

微軟視覺語言模型有顯著超越人類的表現

評論

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

大語言模型：原理與工程實踐+初識2

大語言模型：原理與工程時間+小白初識大語言模型

微軟準備推出全新人工智能語言模型

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

全球最強大模型易主，GPT-4被超越

谷歌模型軟件有哪些功能

機器人基于開源的多模態語言視覺大模型

模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系