在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CV迎來GPT-3時刻:Meta開源“萬物可分割AI”模型

vliwulianw ? 來源:CSDN ? 2023-04-07 09:32 ? 次閱讀

4d55965e-d4d6-11ed-bfe3-dac502259ad0.jpg

通過單擊、交互式點擊即可分割圖像或視頻

英偉達 AI 科學家 Jim Fan 在 Twitter 上驚呼,Meta 發布的 SAM 讓計算機視覺(CV)迎來 GPT-3 時刻。更不可思議的是,模型和數據(1100萬張圖像,10億個掩碼)都已經基于 Apache 2.0 許可開源。

4d74a198-d4d6-11ed-bfe3-dac502259ad0.png

今日,Meta 發布首個可“任意圖像分割”的基礎模型 Segment-Anything Model(SAM)和最大規模的“任意分割 10 億掩碼數據集「Segment Anything 1-Billion mask dataset (SA-1B)」,將自然語言領域的 prompt 范式引入了 CV 領域,進而為 CV 基礎模型提供更廣泛的支持與深度研究。

SAM Demo:https://segment-anything.com/

開源地址:https://github.com/facebookresearch/segment-anything

論文地址:https://ai.facebook.com/research/publications/segment-anything/

SA-1B數據集:https://ai.facebook.com/datasets/segment-anything/

1. 圖片、視頻皆可分割

分割,作為 CV 領域的核心任務,被廣泛應用在科學圖像到編輯照片等應用程序員中,但是,為特定任務創建準確的分割模型通常需要技術專家進行高度專業化的工作,并且需要訪問 AI 培訓基礎設施和大量精心注釋領域內方面的數據能力。

SAM 通過 prompt 工程能力即可分割任意想分割的圖像。

4da427f6-d4d6-11ed-bfe3-dac502259ad0.png

截圖自SAM論文

SAM 已經學會了物體的一般概念,并且可以為任何圖像或視頻中的任何對象生成掩模,甚至包括在訓練期間沒有遇到過的對象和圖像類型。

SAM 足夠通用,可以涵蓋廣泛的用例,并且可以直接在新的圖像“領域”上使用——無論是水下照片還是細胞顯微鏡——都不需要額外的訓練(這種能力通常稱為零樣本遷移)。

之前,為了解決分割問題,一般會采用兩種分類方法:

第一種是交互式分割,可以對任何類別的對象進行分割,但需要人員通過迭代地細化掩模來指導該方法。

第二種是自動分割,允許預先定義特定對象類別(例如貓或椅子)的分割,但需要大量手動注釋的對象進行訓練(例如數千甚至數萬個已經過分割處理的貓示例),以及計算資源和技術專業知識來訓練分割模型。這兩種方法都沒有提供通用、完全自動化的分割方法。

SAM 集合了上面兩種方法,成為一個單一模型,可以輕松執行交互式分割和自動分割。

1、SAM 允許用戶通過單擊、交互式點擊或邊界框提示來分割對象;

2、當面臨關于正在分割的對象歧義時,SAM可以輸出多個有效掩碼,這是解決現實世界中分割問題所必需的重要能力;

3、SAM可以自動查找并遮罩圖像中的所有對象;

4、在預計算圖像嵌入后,SAM 可以為任何提示生成實時分割掩碼,從而允許與模型進行實時交互。

SAM 在超過 10億個掩碼組成的多樣化高質量數據集上進行訓練(作為該項目的一部分),從而使其能夠推廣到訓練期間未觀察到的新類型對象和圖像之外。這種推廣能力意味著,總體來說,從業者將不再需要收集自己的分割數據并微調用于他們用例場景中的模型。

2. SAM 背后的技術

Meta AI 團隊在官博中直言到,SAM 的研發靈感來自于自然語言和計算機視覺中的 “prompt 工程”,只需對新數據集和任務執行零樣本學習和少樣本學習即可使其能夠基于任何提示返回有效的分割掩模。其中,提示可以是前景/背景點、粗略框或掩模、自由文本或者一般情況下指示圖像中需要進行分割的任何信息。有效掩模的要求意味著即使提示不明確并且可能涉及多個對象(例如,在襯衫上的一個點既可能表示襯衫也可能表示穿著它的人),輸出應該是其中一個對象合理的掩模。這項任務用于預訓練模型,并通過提示解決通用下游分割任務。

研發人員觀察到預訓練任務和交互式數據收集對模型設計施加了特定的限制。特別是,為了使標注員能夠在實時交互中高效地進行標注,模型需要在 Web 瀏覽器上以實時方式運行于 CPU 上。雖然運行時間約束意味著質量和運行時間之間存在權衡,但他們發現,簡單的設計在實踐中產生良好的結果。

在模型設計中,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器實時將任何提示轉換為嵌入向量。然后,在輕量級解碼器中將這兩個信息源組合起來以預測分割掩模。計算出圖像嵌入后,SAM 可以在 Web 瀏覽器中僅用 50 毫秒的時間根據任何提示生成一個段落。

4dc3401e-d4d6-11ed-bfe3-dac502259ad0.png

在 Web 瀏覽器中,SAM 高效地將圖像特征和一組提示嵌入映射到生成分割掩模。

3. 超 1100 萬張照片,1B+掩碼

數據集來自 SAM 收集,而在訓練起初,并無任何數據,而今天發布的數據集已是迄今為止最大的數據了。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數據反過來用于更新 SAM,彼此相互作用,重復執行此循環來改善模型和數據集。

使用 SAM 收集新分割掩碼比以往任何時候都更快,僅需約 14 秒即可交互式地注釋掩碼。相對于標記邊界框所需時間約 7 秒鐘(使用最快速度標記接口),每個掩碼標記流程只慢 2 倍左右。與之前大規模分割數據收集努力相比,該模型比 COCO 完全手動基于多邊形遮罩注釋快 6.5 倍,比先前最大的數據注釋工作快了 2 倍,并且是基于模型協助完成任務 。

盡管如此,交互式的標記掩碼依然無法擴展創建 10 億個掩碼數據庫,于是便有了用于創建 SA-1B 數據庫的“引擎”。該引擎有三個“檔位”。

在第一檔中,模型協助注釋員,相互作用;

第二檔是完全自動化的注釋與輔助注釋相結合,有助于增加收集到的掩碼的多樣性;

數據引擎的最后一個檔位是完全自動遮罩創建,進而使數據庫可以擴展。

最終,數據集在超過 1100 萬張經過許可和隱私保護的圖像上收集到了超過 11 億個分割掩模。SA-1B 比任何現有的分割數據集多 400 倍,經人類評估驗證,這些掩模具有高質量和多樣性,在某些情況下甚至可以與以前規模小得多、完全手動注釋的數據集中的掩模相媲美。

4dd33dde-d4d6-11ed-bfe3-dac502259ad0.png

4ded0a3e-d4d6-11ed-bfe3-dac502259ad0.png

Segment Anything 是通過使用數據引擎收集數百萬張圖像和掩模進行訓練,從而得到一個超 10 億個分割掩模的數據集,這比以往任何分割數據集都大400倍。

將來,SAM 可能被用于任何需要在圖像中找到和分割任何對象的領域應用程序。

對于 AI 研究社區或其他人來說,SAM 可能更普遍理解世界、例如理解網頁視覺和文本內容等更大型 AI 系統中組件;

在 AR/VR 領域,SAM 可以根據用戶注視選擇一個對象,然后將其“提升”到 3D;

對于內容創作者來說,SAM 可以改進諸如提取碎片或視頻編輯等創意應用程序;

SAM 也可用來輔助科學領域研究,如地球上甚至空間自然現象, 例如通過定位要研究并跟蹤視頻中的動物或物體。

4dfeb5ea-d4d6-11ed-bfe3-dac502259ad0.gif

5076095e-d4d6-11ed-bfe3-dac502259ad0.gif

最后,SAM 團隊表示,通過分享他們的研究和數據集,來進一步加速分割更常見的圖像和視頻。可提示式分割模型可以作為較大系統中的組件執行分割任務。未來,通過組合系統可擴展單個模型使用,通過提示工程等技術實現可組合系統設計,進而使得比專門針對固定任務集訓練的系統能夠得更廣泛的領域應用。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30896

    瀏覽量

    269108
  • 開源
    +關注

    關注

    3

    文章

    3349

    瀏覽量

    42501
  • CV
    CV
    +關注

    關注

    0

    文章

    53

    瀏覽量

    16861
  • 計算機視覺
    +關注

    關注

    8

    文章

    1698

    瀏覽量

    45993

原文標題:CV 迎來 GPT-3 時刻:Meta 開源“萬物可分割 AI ”模型

文章出處:【微信號:軟件質量報道,微信公眾號:軟件質量報道】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文解析人工智能中GPT-3 到底有多厲害?

    對于我個人來說,剛剛步入媒體圈,職業生涯就將遭遇一次非常嚴重的 AI 威脅。 因為 GPT-3 來了,而且在寫文章、編故事的能力上面比上一代更能打了。 已經得到微軟 Azure 算力加持
    的頭像 發表于 03-19 14:19 ?2w次閱讀

    技術與市場:AI模型的“Linux時刻”降臨

    LLaMA 包括四個不同的參數版本(70 億/130 億/330 億/650 億),不支持商用,指令數 據集基于 OpenAI,模型表現可與 GPT-3 持平或優于 GPT-3。其中,70 億和 130 億參數 版擁有包含 1
    的頭像 發表于 06-01 16:43 ?1378次閱讀
    技術與市場:<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>的“Linux<b class='flag-5'>時刻</b>”降臨

    線下活動 | 開源工作坊第2期——開源萬物互聯

    開源工作坊第2期——開源萬物互聯活動 將于12月18日在深圳市新一代產業園舉辦,感謝各位開發者一直以來對開放原子開源基金會及開源社區及
    發表于 12-15 14:07

    史上最大AI模型GPT-3你要開始收費了 接下去可能用不起它了

    還記得前不久被捧上天的GPT-3么?那個只有被邀請的用戶才能測試使用的,號稱史上最大AI模型。 OpenAI的1,750億參數語言模型GPT-3
    的頭像 發表于 09-25 11:38 ?3071次閱讀
    史上最大<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>GPT-3</b>你要開始收費了  接下去可能用不起它了

    微軟獲得AI神器 GPT-3 獨家授權,引來馬斯克等業內人士怒懟

    今年以來,人工智能領域出現了一個熱詞:GPT-3。由人工智能非營利組織 OpenAI 耗資 1200 美元開發,涵蓋 1750 億個參數,達到了目前最佳 SOTA,寫作水平媲美人類。種種光環加持下,自然語言處理模型
    的頭像 發表于 09-29 09:52 ?2164次閱讀

    GPT-3引發公眾的遐想 能根據文字產生圖片的AI!

    在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發公眾的遐想。 雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創作。但是,它在同人類對話時還是顯得
    的頭像 發表于 10-09 18:30 ?2601次閱讀

    史上最大AI模型GPT-3強勢霸榜Github

    最近,GPT-3火了!相信你已經在網上看到各種有關GPT-3的演示。這個由OpenAI創建的大型機器學習模型,它不僅可以自己寫論文,還會寫詩歌,就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看
    的頭像 發表于 01-06 17:06 ?3029次閱讀

    GPT系列的“高仿” 最大可達GPT-3大小 自主訓練

    雖然GPT-3沒有開源,卻已經有人在復刻GPT系列的模型了。 例如,慕尼黑工業大學的Connor Leahy,此前用200個小時、6000RMB,復現了
    的頭像 發表于 02-13 09:24 ?2862次閱讀

    谷歌開發出超過一萬億參數的語言模型,秒殺GPT-3

    GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發的語言模型
    的頭像 發表于 01-27 16:26 ?2169次閱讀
    谷歌開發出超過一萬億參數的語言<b class='flag-5'>模型</b>,秒殺<b class='flag-5'>GPT-3</b>

    Eleuther AI:已經開源了復現版GPT-3模型參數

    GPT3終于開源!不過,不是官方開的(別打我 Eleuther AI推出的名為GPT-Neo的開源項目,于晨4點于twitter正式宣布:已
    的頭像 發表于 03-31 17:46 ?3218次閱讀

    第一篇綜述!分割一切模型(SAM)的全面調研

    SAM 是一個提示型模型,其在 1100 張圖像上訓練了超過 10 億個掩碼,實現了強大的零樣本泛化。許多研究人員認為「這是 CVGPT-3
    的頭像 發表于 05-24 14:36 ?1017次閱讀
    第一篇綜述!<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>(SAM)的全面調研

    MEANEST家庭自動化AI(使用GPT-3

    電子發燒友網站提供《MEANEST家庭自動化AI(使用GPT-3).zip》資料免費下載
    發表于 06-15 11:33 ?0次下載
    MEANEST家庭自動化<b class='flag-5'>AI</b>(使用<b class='flag-5'>GPT-3</b>)

    Meta推出最強開源模型Llama 3 要挑戰GPT

    Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platf
    的頭像 發表于 04-19 17:00 ?838次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了一則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3
    的頭像 發表于 09-19 15:13 ?579次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領域的“GPT-3時刻
    的頭像 發表于 09-20 17:05 ?797次閱讀
    主站蜘蛛池模板: 午夜大片网| 成人福利在线视频| 看视频免费网址| 性欧美欧美之巨大69| 精品爱爱| 久久亚洲国产成人影院| 老师啊灬啊灬用力啊快224视频| 日韩免费观看的一级毛片| 94在线| 丁香五月欧美成人| 色婷婷色丁香| 一级毛片女人喷潮| 亚洲一区小说区中文字幕| 日韩午夜片| 天天躁狠狠躁狠狠躁夜夜躁| 一区二区三区亚洲视频| 色老头一区二区三区在线观看| 91精品国产91久久久久久青草| 日本三级11k影院在线| 天堂在线视频网站| 伊人网网| 国产手机在线国内精品| 福利午夜最新| 婷婷六月丁香| 亚洲精品福利视频| 能在线观看的一区二区三区| 男女爱爱福利| 久久精品国产免费| 香港三澳门三日本三级| 又粗又长又大又黄的日本视频| 一区二区三区中文字幕| 久久影院朴妮唛| 福利午夜| 日韩中文视频| 理论视频在线观看| 五月激情电影| 天天干夜夜欢| 一个人看aaaa免费中文| 在线国产播放| 免费在线一区二区三区| 国产美女在线观看|