怎样写网络小说,有声读物,大主宰

通過單擊、交互式點擊即可分割圖像或視頻

英偉達 AI 科學家 Jim Fan 在 Twitter 上驚呼，Meta 發布的 SAM 讓計算機視覺（CV）迎來 GPT-3 時刻。更不可思議的是，模型和數據（1100萬張圖像，10億個掩碼）都已經基于 Apache 2.0 許可開源。

今日，Meta 發布首個可“任意圖像分割”的基礎模型 Segment-Anything Model（SAM）和最大規模的“任意分割 10 億掩碼數據集「Segment Anything 1-Billion mask dataset (SA-1B)」，將自然語言領域的 prompt 范式引入了 CV 領域，進而為 CV 基礎模型提供更廣泛的支持與深度研究。

SAM Demo：https://segment-anything.com/

開源地址：https://github.com/facebookresearch/segment-anything

論文地址：https://ai.facebook.com/research/publications/segment-anything/

SA-1B數據集：https://ai.facebook.com/datasets/segment-anything/

1. 圖片、視頻皆可分割

分割，作為 CV 領域的核心任務，被廣泛應用在科學圖像到編輯照片等應用程序員中，但是，為特定任務創建準確的分割模型通常需要技術專家進行高度專業化的工作，并且需要訪問 AI 培訓基礎設施和大量精心注釋領域內方面的數據能力。

SAM 通過 prompt 工程能力即可分割任意想分割的圖像。

截圖自SAM論文

SAM 已經學會了物體的一般概念，并且可以為任何圖像或視頻中的任何對象生成掩模，甚至包括在訓練期間沒有遇到過的對象和圖像類型。

SAM 足夠通用，可以涵蓋廣泛的用例，并且可以直接在新的圖像“領域”上使用——無論是水下照片還是細胞顯微鏡——都不需要額外的訓練（這種能力通常稱為零樣本遷移）。

之前，為了解決分割問題，一般會采用兩種分類方法：

第一種是交互式分割，可以對任何類別的對象進行分割，但需要人員通過迭代地細化掩模來指導該方法。

第二種是自動分割，允許預先定義特定對象類別（例如貓或椅子）的分割，但需要大量手動注釋的對象進行訓練（例如數千甚至數萬個已經過分割處理的貓示例），以及計算資源和技術專業知識來訓練分割模型。這兩種方法都沒有提供通用、完全自動化的分割方法。

SAM 集合了上面兩種方法，成為一個單一模型，可以輕松執行交互式分割和自動分割。

1、SAM 允許用戶通過單擊、交互式點擊或邊界框提示來分割對象；

2、當面臨關于正在分割的對象歧義時，SAM可以輸出多個有效掩碼，這是解決現實世界中分割問題所必需的重要能力；

3、SAM可以自動查找并遮罩圖像中的所有對象；

4、在預計算圖像嵌入后，SAM 可以為任何提示生成實時分割掩碼，從而允許與模型進行實時交互。

SAM 在超過 10億個掩碼組成的多樣化高質量數據集上進行訓練（作為該項目的一部分），從而使其能夠推廣到訓練期間未觀察到的新類型對象和圖像之外。這種推廣能力意味著，總體來說，從業者將不再需要收集自己的分割數據并微調用于他們用例場景中的模型。

2. SAM 背后的技術

Meta AI 團隊在官博中直言到，SAM 的研發靈感來自于自然語言和計算機視覺中的 “prompt 工程”，只需對新數據集和任務執行零樣本學習和少樣本學習即可使其能夠基于任何提示返回有效的分割掩模。其中，提示可以是前景/背景點、粗略框或掩模、自由文本或者一般情況下指示圖像中需要進行分割的任何信息。有效掩模的要求意味著即使提示不明確并且可能涉及多個對象（例如，在襯衫上的一個點既可能表示襯衫也可能表示穿著它的人），輸出應該是其中一個對象合理的掩模。這項任務用于預訓練模型，并通過提示解決通用下游分割任務。

研發人員觀察到預訓練任務和交互式數據收集對模型設計施加了特定的限制。特別是，為了使標注員能夠在實時交互中高效地進行標注，模型需要在 Web 瀏覽器上以實時方式運行于 CPU 上。雖然運行時間約束意味著質量和運行時間之間存在權衡，但他們發現，簡單的設計在實踐中產生良好的結果。

在模型設計中，圖像編碼器為圖像生成一次性嵌入，而輕量級編碼器實時將任何提示轉換為嵌入向量。然后，在輕量級解碼器中將這兩個信息源組合起來以預測分割掩模。計算出圖像嵌入后，SAM 可以在 Web 瀏覽器中僅用 50 毫秒的時間根據任何提示生成一個段落。

在 Web 瀏覽器中，SAM 高效地將圖像特征和一組提示嵌入映射到生成分割掩模。

3. 超 1100 萬張照片，1B+掩碼

數據集來自 SAM 收集，而在訓練起初，并無任何數據，而今天發布的數據集已是迄今為止最大的數據了。注釋員使用 SAM 交互式地注釋圖像，然后新注釋的數據反過來用于更新 SAM，彼此相互作用，重復執行此循環來改善模型和數據集。

使用 SAM 收集新分割掩碼比以往任何時候都更快，僅需約 14 秒即可交互式地注釋掩碼。相對于標記邊界框所需時間約 7 秒鐘（使用最快速度標記接口），每個掩碼標記流程只慢 2 倍左右。與之前大規模分割數據收集努力相比，該模型比 COCO 完全手動基于多邊形遮罩注釋快 6.5 倍，比先前最大的數據注釋工作快了 2 倍，并且是基于模型協助完成任務。

盡管如此，交互式的標記掩碼依然無法擴展創建 10 億個掩碼數據庫，于是便有了用于創建 SA-1B 數據庫的“引擎”。該引擎有三個“檔位”。

在第一檔中，模型協助注釋員，相互作用；

第二檔是完全自動化的注釋與輔助注釋相結合，有助于增加收集到的掩碼的多樣性；

數據引擎的最后一個檔位是完全自動遮罩創建，進而使數據庫可以擴展。

最終，數據集在超過 1100 萬張經過許可和隱私保護的圖像上收集到了超過 11 億個分割掩模。SA-1B 比任何現有的分割數據集多 400 倍，經人類評估驗證，這些掩模具有高質量和多樣性，在某些情況下甚至可以與以前規模小得多、完全手動注釋的數據集中的掩模相媲美。

Segment Anything 是通過使用數據引擎收集數百萬張圖像和掩模進行訓練，從而得到一個超 10 億個分割掩模的數據集，這比以往任何分割數據集都大400倍。

將來，SAM 可能被用于任何需要在圖像中找到和分割任何對象的領域應用程序。

對于 AI 研究社區或其他人來說，SAM 可能更普遍理解世界、例如理解網頁視覺和文本內容等更大型 AI 系統中組件；

在 AR/VR 領域，SAM 可以根據用戶注視選擇一個對象，然后將其“提升”到 3D；

對于內容創作者來說，SAM 可以改進諸如提取碎片或視頻編輯等創意應用程序；

SAM 也可用來輔助科學領域研究，如地球上甚至空間自然現象, 例如通過定位要研究并跟蹤視頻中的動物或物體。

最后，SAM 團隊表示，通過分享他們的研究和數據集，來進一步加速分割更常見的圖像和視頻。可提示式分割模型可以作為較大系統中的組件執行分割任務。未來，通過組合系統可擴展單個模型使用，通過提示工程等技術實現可組合系統設計，進而使得比專門針對固定任務集訓練的系統能夠得更廣泛的領域應用。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30896

瀏覽量
269108
開源

開源

+關注

關注
3

文章
3349

瀏覽量
42501
CV

CV

+關注

關注
0

文章
53

瀏覽量
16861
計算機視覺

計算機視覺

+關注

關注
8

文章
1698

瀏覽量
45993

原文標題：CV 迎來 GPT-3 時刻：Meta 開源“萬物可分割 AI ”模型

文章出處：【微信號：軟件質量報道，微信公眾號：軟件質量報道】歡迎添加關注！文章轉載請注明出處。

一文解析人工智能中GPT-3 到底有多厲害？

對于我個人來說，剛剛步入媒體圈，職業生涯就將遭遇一次非常嚴重的 AI 威脅。因為 GPT-3 來了，而且在寫文章、編故事的能力上面比上一代更能打了。已經得到微軟 Azure 算力加持

發表于 03-19 14:19 ?2w次閱讀

技術與市場：AI大模型的“Linux時刻”降臨

LLaMA 包括四個不同的參數版本（70 億/130 億/330 億/650 億），不支持商用，指令數據集基于 OpenAI，模型表現可與 GPT-3 持平或優于 GPT-3。其中，70 億和 130 億參數版擁有包含 1

發表于 06-01 16:43 ?1378次閱讀

技術與市場：<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>的“Linux<b class='flag-5'>時刻</b>”降臨

線下活動 | 開源工作坊第2期——開源與萬物互聯

開源工作坊第2期——開源與萬物互聯活動將于12月18日在深圳市新一代產業園舉辦，感謝各位開發者一直以來對開放原子開源基金會及開源社區及

發表于 12-15 14:07

史上最大AI模型GPT-3你要開始收費了接下去可能用不起它了

還記得前不久被捧上天的GPT-3么？那個只有被邀請的用戶才能測試使用的，號稱史上最大AI模型。 OpenAI的1,750億參數語言模型GPT-3

發表于 09-25 11:38 ?3071次閱讀

微軟獲得AI神器 GPT-3 獨家授權，引來馬斯克等業內人士怒懟

今年以來，人工智能領域出現了一個熱詞：GPT-3。由人工智能非營利組織 OpenAI 耗資 1200 萬美元開發，涵蓋 1750 億個參數，達到了目前最佳 SOTA，寫作水平媲美人類。種種光環加持下，自然語言處理模型

發表于 09-29 09:52 ?2164次閱讀

GPT-3引發公眾的遐想能根據文字產生圖片的AI!

在全球所有 AI 模型中，OpenAI 的 GPT-3 最能引發公眾的遐想。雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲，并且成功地讓人們相信這是人類的創作。但是，它在同人類對話時還是顯得

發表于 10-09 18:30 ?2601次閱讀

史上最大AI模型GPT-3強勢霸榜Github

最近，GPT-3火了！相信你已經在網上看到各種有關GPT-3的演示。這個由OpenAI創建的大型機器學習模型，它不僅可以自己寫論文，還會寫詩歌，就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看

發表于 01-06 17:06 ?3029次閱讀

GPT系列的“高仿” 最大可達GPT-3大小自主訓練

雖然GPT-3沒有開源，卻已經有人在復刻GPT系列的模型了。例如，慕尼黑工業大學的Connor Leahy，此前用200個小時、6000RMB，復現了

發表于 02-13 09:24 ?2862次閱讀

谷歌開發出超過一萬億參數的語言模型，秒殺GPT-3

繼GPT-3問世僅僅不到一年的時間，Google重磅推出Switch Transformer，直接將參數量從GPT-3的1750億拉高到1.6萬億，并比之前最大的、由google開發的語言模型

發表于 01-27 16:26 ?2169次閱讀

Eleuther AI：已經開源了復現版GPT-3的模型參數

GPT3終于開源！不過，不是官方開的（別打我 Eleuther AI推出的名為GPT-Neo的開源項目，于晨4點于twitter正式宣布：已

發表于 03-31 17:46 ?3218次閱讀

第一篇綜述！分割一切模型(SAM)的全面調研

SAM 是一個提示型模型，其在 1100 萬張圖像上訓練了超過 10 億個掩碼，實現了強大的零樣本泛化。許多研究人員認為「這是 CV 的 GPT-3

發表于 05-24 14:36 ?1017次閱讀

MEANEST家庭自動化AI（使用GPT-3）

電子發燒友網站提供《MEANEST家庭自動化AI（使用GPT-3）.zip》資料免費下載

發表于 06-15 11:33 ?0次下載

Meta推出最強開源模型Llama 3 要挑戰GPT

Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platf

發表于 04-19 17:00 ?838次閱讀

Jim Fan展望:機器人領域即將迎來GPT-3式突破

英偉達科學家9月19日，科技媒體The Decoder發布了一則引人關注的報道，英偉達高級科學家Jim Fan在近期預測，機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破，他稱之為機器人領域的“GPT-3

發表于 09-19 15:13 ?579次閱讀

英偉達預測機器人領域或迎“GPT-3時刻”

未來2-3年內，機器人基礎模型的研究將迎來重大突破，這一時刻被形象地比喻為機器人領域的“GPT-3時刻

發表于 09-20 17:05 ?797次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

CV迎來GPT-3時刻：Meta開源“萬物可分割AI”模型

評論

一文解析人工智能中GPT-3 到底有多厲害？

技術與市場：AI大模型的“Linux時刻”降臨

線下活動 | 開源工作坊第2期——開源與萬物互聯

史上最大AI模型GPT-3你要開始收費了接下去可能用不起它了

微軟獲得AI神器 GPT-3 獨家授權，引來馬斯克等業內人士怒懟

GPT-3引發公眾的遐想能根據文字產生圖片的AI!

史上最大AI模型GPT-3強勢霸榜Github

GPT系列的“高仿” 最大可達GPT-3大小自主訓練

谷歌開發出超過一萬億參數的語言模型，秒殺GPT-3

Eleuther AI：已經開源了復現版GPT-3的模型參數

第一篇綜述！分割一切模型(SAM)的全面調研

MEANEST家庭自動化AI（使用GPT-3）

Meta推出最強開源模型Llama 3 要挑戰GPT

Jim Fan展望:機器人領域即將迎來GPT-3式突破

英偉達預測機器人領域或迎“GPT-3時刻”