在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態輸入

jf_WZTOguxH ? 來源:AI前線 ? 2023-08-25 15:12 ? 次閱讀

繼 8 月初阿里云開源通義千問 70 億參數通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat 后,又一大模型實現了開源。 阿里云開源通義千問多模態大模型 Qwen-VL

InfoQ 獲悉,8 月 25 日,阿里云開源通義千問多模態大模型 Qwen-VL。這是繼 8 月初阿里云開源通義千問 70 億參數通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat 后,又開源的一大模型。

據介紹,Qwen-VL 是支持中英文等多種語言的視覺語言(Vision Language,VL)模型。相較于此前的 VL 模型,Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力。

0f7b6358-4309-11ee-a2ef-92fbcf53809c.png

具體來說,Qwen-VL 可以以圖像、文本、檢測框作為輸入,并以文本和檢測框作為輸出,可用于知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等多種場景。比如,一位不懂中文的外國游客到醫院看病,不知道怎么去往對應科室,他拍下樓層導覽圖問 Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”,Qwen-VL 會根據圖片信息給出文字回復。

0fc6260e-4309-11ee-a2ef-92fbcf53809c.png

此外,Qwen-VL 還是業界首個支持中文開放域定位的通用模型,可以通過中文開放域語言表達進行檢測框標注。開放域視覺定位能力決定了大模型“視力”的精準度,這意味著具備該能力的大模型能在畫面中精準地找出想找的事物。比如,輸入一張上海外灘的照片,讓 Qwen-VL 找出東方明珠,Qwen-VL 能用檢測框準確圈出對應建筑。

0fecc17e-4309-11ee-a2ef-92fbcf53809c.png

據了解,Qwen-VL 以 Qwen-7B 為基座語言模型研發,在模型架構上引入視覺編碼器,使得模型支持視覺信號輸入,并通過設計訓練過程,讓模型具備對視覺信號的細粒度感知和理解能力。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標注,相比于目前其它開源 LVLM 使用的 224 分辨率,Qwen-VL 是首個開源的 448 分辨率的 LVLM 模型。

阿里云通義千問團隊算法專家、Qwen-VL 開源模型負責人白金澤在接受 InfoQ 采訪時表示,Qwen-VL 模型的訓練分為三個階段:

在預訓練階段,團隊主要利用大規模、弱標注的圖像 - 文本樣本對進行訓練;

在多任務訓練階段,團隊整理了大量高質量多任務的細粒度圖文標注數據進行混合訓練,并升高了圖像的輸入分辨率,降低圖像縮放引起的信息損失,增強模型對圖像細節的感知能力,得到 Qwen-VL 預訓練模型;

在指令微調階段,團隊使用合成標注的對話數據進行指令微調,激發模型的指令跟隨和對話能力,得到具有交互能力的 Qwen-VL-Chat 對話模型。

白金澤表示,Qwen-VL 模型的研發難點主要體現在數據、訓練、框架三個層面?!皵祿矫?,多模態的數據整理和清洗是個難點,有效的數據清洗可以提高訓練效率以及提升最終收斂后的效果。訓練方面,在多模態大模型的訓練中,一般認為大 batch 和較大學習率可以提升訓練收斂效率和最終結果,但其訓練過程可能更加不穩定。我們通過一些訓練技巧有效提升了訓練穩定性,具體細節將在相關論文中公布??蚣芊矫?,目前多模態大模型的并行訓練框架支持并不完善,我們對多模態大模型的 3D 并行技術進行了優化,可穩定訓練更大規模的多模態模型?!?/p>

除了 Qwen-VL,本次阿里云還開源了 Qwen-VL-Chat。Qwen-VL-Chat 是在 Qwen-VL 的基礎上,使用對齊機制打造的基于大語言模型的視覺 AI 助手,可讓開發者快速搭建具備多模態能力的對話應用。

白金澤補充說,團隊主要通過兩類方式評估了多模態大模型的效果。其一是使用標準基準數據集來評測每個多模態子任務的效果。例如評測圖片描述(Image Captioning)、圖片問答(Visual Question Answering, VQA)、文檔問答(Document VQA)、圖表問答(Chart VQA)、少樣本問答(Few-shot VQA)、參照物標注(Referring Expression Comprehension)等。其二是使用人工或借助 GPT-4 打分來評測多模態大模型的整體對話能力和對齊水平。通義千問團隊構建了一套基于 GPT-4 打分機制的基準“試金石”( TouchStone),總計涵蓋 300+ 張圖片、800+ 道題目、27 個題目類別。

在四大類多模態任務(Zero-shot Caption/VQA/DocVQA/Grounding)的標準英文測評中,Qwen-VL 取得了同等尺寸開源 LVLM 的最好效果。為了測試模型的多模態對話能力,通義千問團隊構建了一套基于 GPT-4 打分機制的測試集“試金石”,對 Qwen-VL-Chat 及其他模型進行對比測試,Qwen-VL-Chat 在中英文的對齊評測中均取得了開源 LVLM 最好結果。

104f1252-4309-11ee-a2ef-92fbcf53809c.png

目前,Qwen-VL 及其視覺 AI 助手 Qwen-VL-Chat 均已上線 ModelScope 魔搭社區,開源、免費、可商用。用戶可從魔搭社區直接下載模型,也可通過阿里云靈積平臺訪問調用 Qwen-VL 和 Qwen-VL-Chat,阿里云為用戶提供包括模型訓練、推理、部署、精調等在內的全方位服務。

大模型發展的下一站:多模態大模型

多模態大模型是指能夠理解文字、圖像、視頻音頻等多種模態信息的大模型,與僅能理解單一文本模態的語言模型相比,多模態大模型的優勢就在于可以充分利用語言模型的指令理解能力,來做圖像、語音、視頻等各種模態中的開放域任務,從而具備處理不同模態信息的通用能力。而單一模態大模型的任務形式通常都是預先定義好的,比如圖像 / 視頻 / 語音分類任務,需要提前知道這些類別,然后針對性的找訓練數據去訓練模型。

有觀點認為,多模態是預訓練大模型最重要的技術演進方向之一。

業界普遍認為,從單一感官的、僅支持文本輸入的語言模型,到“五官全開”的,支持文本、圖像、音頻等多種信息輸入的多模態模型,蘊含著大模型智能躍升的巨大可能。多模態能夠提升大模型對世界的理解程度,充分拓展大模型的使用場景。比如,以 GPT-4、PaLM-E 為代表的一批模型,通過賦予大語言模型感知、理解視覺信號的能力,展現出大規模視覺語言模型在解決以視覺為中心的實際問題的前景,并顯示出進一步拓展到具身智能、通向通用人工智能的廣闊前景。

其中,視覺作為人類的第一感官能力,也是研究者首先希望賦予大模型的多模態能力。因此,繼此前推出 M6、OFA 系列多模態模型之后,阿里云通義千問團隊又開源了基于 Qwen-7B 的大規模視覺語言模型 Qwen-VL。

不過,多模態大模型的開發并非易事,白金澤表示,多模態大模型的開發難度包括但不限于以下幾點:

模態間表征差異大:大規模純語言模型的輸入輸出一般是離散表征,而圖像、語音等內容通常是連續表征,其模態間的信息密度、表征空間、輸入輸出方式等都存在巨大差異,這導致了設計的復雜性。

多模態大模型收斂不穩定:由于模態間表征差異大、各模態網絡異構等因素,相比純文本大模型,多模態大模型的訓練具有更多的挑戰,更有可能出現訓練不穩定的情況。

缺乏穩定開源框架支持:目前常見的開源大模型訓練框架,都只對純語言模型的訓練效率進行了極致的優化。為了處理多模態輸入輸出,多模態模型通常有非對稱的網絡結構,導致無法直接用常見開源訓練框架擴展到超大參數量。通義千問團隊對多模態的并行訓練框架進行了多重優化,可穩定訓練更大規模的多模態模型。

“多模態是我們很看好的技術方向,這個領域還有很多技術難題有待解決,未來我們也會持續研究。就 Qwen-VL 來說,接下來的工作包括支持更高分辨率的圖像輸入,無監督地從圖像中學習更多的世界知識,擴展更多模態,加深對多模態數據的理解,等等?!卑捉饾烧f道。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • 阿里云
    +關注

    關注

    3

    文章

    956

    瀏覽量

    43045
  • 大模型
    +關注

    關注

    2

    文章

    2451

    瀏覽量

    2714

原文標題:通義千問能看圖了!阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態輸入

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    阿里發布開源模態推理模型QVQ-72B-Preview

    近日,阿里宣布了一項重大技術突破,正式發布了業界首個開源模態推理模型——QVQ-72B-Preview。這一
    的頭像 發表于 12-27 10:28 ?144次閱讀

    阿里開源推理大模型QwQ

    推理能力,尤其在數學和編程方面表現突出。其整體推理水平已經可以與OpenAI的o1模型相媲美,這充分展示了QwQ的強大實力和潛力。 QwQ(Qwen with Questions)是通義千問Qwen
    的頭像 發表于 11-29 11:30 ?557次閱讀

    阿里通義千問發布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經過數月的精心優化與改進,正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區對更長上下文長
    的頭像 發表于 11-19 18:07 ?580次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源
    的頭像 發表于 11-14 15:26 ?344次閱讀

    阿里開源Qwen2.5-Coder代碼模型系列

    近日,阿里通義大模型團隊宣布開源其通義千問代碼模型全系列,共包含6款Qwen2.5-Coder
    的頭像 發表于 11-14 11:28 ?360次閱讀

    PerfXCloud重磅升級 阿里開源最強視覺語言模型Qwen2-VL-7B強勢上線!

    體驗吧! Qwen2-VL Qwen2-VL模型阿里推出,在描述圖像、理解視頻以及解答視覺相關問題等方面表現極為卓越。該
    的頭像 發表于 10-23 11:07 ?294次閱讀
    PerfXCloud重磅升級  <b class='flag-5'>阿里</b><b class='flag-5'>開源</b>最強<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>Qwen2-VL</b>-7B強勢上線!

    利用OpenVINO部署Qwen2多模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,多模態
    的頭像 發表于 10-18 09:39 ?440次閱讀

    號稱全球最強開源模型 ——Qwen2.5 系列震撼來襲!PerfXCloud同步上線,快來體驗!

    9月19日凌晨,阿里通義千問 正式開源Qwen2.5系列大模型 ,最新發布包括了語言模型
    的頭像 發表于 09-25 16:52 ?606次閱讀
    號稱全球最強<b class='flag-5'>開源</b><b class='flag-5'>模型</b> ——<b class='flag-5'>Qwen</b>2.5 系列震撼來襲!PerfXCloud同步上線,快來體驗!

    通義千問發布第二代視覺語言模型Qwen2-VL

    阿里巴巴旗下的通義千問近日宣布,其第二代視覺語言模型Qwen2-VL正式問世,并宣布旗艦模型
    的頭像 發表于 09-03 16:31 ?581次閱讀

    基于Qwen-Agent與OpenVINO構建本地AI智能體

    Qwen2 是阿里巴巴集團 Qwen 團隊研發的大語言模型和大型多模態
    的頭像 發表于 07-26 09:54 ?789次閱讀
    基于<b class='flag-5'>Qwen</b>-Agent與OpenVINO構建本地AI智能體

    阿里通義千問Qwen2大模型發布并同步開源

    阿里巴巴集團旗下的通義千問團隊宣布,全新的Qwen2大模型正式發布,并在全球知名的開源平臺Hugging Face和ModelScope上同步開源
    的頭像 發表于 06-11 15:33 ?1073次閱讀

    阿里通義千問Qwen2大模型發布

    阿里巴巴最近發布了其通義千問系列的新成員——Qwen2大模型,并在Hugging Face和ModelScope兩大平臺上實現了同步開源。這一舉措無疑為人工智能領域的研究者和開發者們提
    的頭像 發表于 06-07 15:59 ?763次閱讀

    聯發科天璣9300搭載通義千問大模型,阿里提供解決方案

    通義千問大模型開源多項版本,包括18億、70億、140億及720億參數等版本伴隨視覺、音頻多模態能力提升。阿里
    的頭像 發表于 03-28 09:55 ?601次閱讀

    字節發布機器人領域首個開源視覺-語言操作大模型,激發開源VLMs更大潛能

    對此,ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了
    的頭像 發表于 01-23 16:02 ?534次閱讀
    字節發布機器人領域首個<b class='flag-5'>開源</b><b class='flag-5'>視覺</b>-<b class='flag-5'>語言</b>操作大<b class='flag-5'>模型</b>,激發<b class='flag-5'>開源</b>VLMs更大潛能

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了
    發表于 01-19 11:43 ?422次閱讀
    機器人基于<b class='flag-5'>開源</b>的多<b class='flag-5'>模態</b><b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 欧美黄色性| 激情理论片| 国产三级在线免费| www成人在线观看| 五月天亚洲综合| 欧美成人鲁丝片在线观看| 亚欧成人乱码一区二区| 黄色三级国产| 好吊788gaoco| 在线观看中文字幕一区| 瑟瑟网站免费| 激情五月婷婷小说| 久久久久国产精品免费免费| 丁香六月激情网| 一级在线观看| 欧美一级看片免费观看视频在线| 国产农村妇女毛片精品久久久| 九色视频网| 亚洲国产成人精品青青草原100| 国产亚洲3p一区二区三区| а中文在线天堂| 四虎影院在线免费观看| a级毛片免费观看网站| 交专区videossex另类| 中国一级黄色毛片| 国产va免费精品观看| 日本xxxxxxxxx18| 一级特黄aa大片免费| 国产精品激情综合久久| 在线黄视频网站| 日本三级三级三级免费看| 94在线| 亚洲卡一卡2卡三卡4卡国色| 色综合久久一区二区三区| 午夜不卡在线| 国产成人精品三级在线| 国产乱理论片在线观看理论| 欧美乱xxxxxxxxx| 欧美伦理一区二区三区| 天天干天天爱天天操| 亚洲视频在线一区二区三区|