在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SAM-PT:點幾下鼠標,視頻目標就分割出來了!

CVer ? 來源:機器之心 ? 2023-07-10 15:28 ? 次閱讀

只要在視頻中點幾下鼠標,SAM-PT 就能分割并且追蹤物體的輪廓。

1dc92af0-1ec7-11ee-962d-dac502259ad0.gif

視頻分割在許多場景下被廣泛應用。電影視覺效果的增強、自動駕駛的理解場景,以及視頻會議中創建虛擬背景等等都需要應用到視頻分割。近期,基于深度學習的視頻分割已經有著不錯的表現了,但這依舊是計算機視覺中一個具有挑戰性的話題

在半監督視頻對象分割(VOS)和視頻實例分割(VIS)方面,目前的主流方法處理未知數據時表現一般,是在零樣本情況下更是「一言難盡」。零樣本情況就是指,這些模型被遷移應用到未經過訓練的視頻領域,并且這些視頻中包含訓練之外的物體。而表現一般的原因就是沒有特定的視頻分割數據進行微調,這些模型就很難在各種場景中保持一致的性能。

克服這個難題,就需要將在圖像分割領域取得成功的模型應用到視頻分割任務中。這就不得不提到 Segment Anything Model(SAM,分割一切模型)了。

SAM 是一個強大的圖像分割基礎模型,它在規模龐大的 SA-1B 數據集上進行訓練,這其中包含 1100 萬張圖像和 10 億多個掩碼。大量的訓練讓 SAM 了具備驚人的零樣本泛化能力。SAM 可以在不需要任何標注的情況下,對任何圖像中的任何物體進行分割,引起了業界的廣泛反響,甚至被稱為計算機視覺領域的 GPT。

盡管 SAM 在零樣本圖像分割上展現了巨大的能力,但它并非「天生」就適用于視頻分割任務。

最近研究人員已經開始致力于將 SAM 應用于視頻分割。雖然這些方法恢復了大部分分布內數據的性能,但在零樣本情況下,它們還是無法保持 SAM 的原始性能。其他不使用 SAM 的方法,如 SegGPT,可以通過視覺 prompt 成功解決一些分割問題,但仍需要對第一幀視頻進行掩碼注釋。這個問題在零樣本視頻分割中的關鍵難題。當研究者試圖開發能夠容易地推廣到未見過的場景,并在不同的視頻領域持續提供高質量分割的方法時,這個難題就顯得更加「絆腳」。

現在,有研究者提出了 SAM-PT(Segment Anything Meets Point Tracking),這或許能夠對「絆腳石」的消除提供新的思路。

1f20b260-1ec7-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2307.01197

GitHub 地址:https://github.com/SysCV/sam-pt

如圖 1 所示,SAM-PT 第一種將稀疏點追蹤與 SAM 相結合用于視頻分割的方法。與使用以目標為中心的密集特征匹配或掩碼傳播不同,這是一種點驅動的方法。它利用嵌入在視頻中的豐富局部結構信息來跟蹤點。因此,它只需要在第一幀中用稀疏點注釋目標對象,并在未知對象上有更好的泛化能力,這一優勢在 UVO 基準測試中得到了證明。該方法還有助于保持 SAM 的固有靈活性,同時有效地擴展了它在視頻分割方面的能力。

1f403b1c-1ec7-11ee-962d-dac502259ad0.png

SAM-PT 使用最先進的點追蹤器(如 PIPS)預測稀疏點軌跡,以此提示 SAM,利用其多功能性進行視頻分割。研究人員發現,使用來自掩碼標簽的 K-Medoids 聚類中心來初始化跟蹤點,是與提示 SAM 最兼容的策略。追蹤正反兩方面的點可以將目標物體從其背景中清晰地劃分出來。

為了進一步優化輸出的掩碼,研究人員提出了多個掩碼解碼通道,將兩種類型的點進行整合。此外,他們還設計了一種點重新初始化策略,隨著時間的推移提高了跟蹤的準確性。這種方法包括丟棄變得不可靠或被遮擋的點,并添加在后續幀 (例如當物體旋轉時) 中變得可見的物體部分或部分的點。

值得注意的是,本文的實驗結果表明,SAM-PT 在幾個視頻分割基準上與現有的零樣本方法不相上下,甚至超過了它們。在訓練過程中,SAM-PT 不需要任何視頻分割數據,這證明了方法的穩健性和適應性。SAM-PT 具有增強視頻分割任務進展的潛力,特別是在零樣本場景下。

SAM-PT 方法概覽

盡管 SAM 在圖像分割方面展示出令人印象深刻的能力,但其在處理視頻分割任務方面存在固有的局限性。我們提出的 "Segment Anything Meets Point Tracking"(SAM-PT)方法有效地將 SAM 擴展到視頻領域,為視頻分割提供了強大的支持,而無需對任何視頻分割數據進行訓練。

如圖 2 所示,SAM-PT 主要由四個步驟組成:

1) 為第一幀選擇查詢點;

2) 使用點跟蹤器,將這些點傳播到所有視頻幀;

3) 利用 SAM 生成基于傳播點的逐幀分割掩碼;

4) 通過從預測的掩碼中抽取查詢點來重新初始化這個過程。

1f7efc08-1ec7-11ee-962d-dac502259ad0.png

選擇查詢點。該過程的第一步是定義第一個視頻幀中的查詢點。這些查詢點要么表示目標對象 (正點),要么指定背景和非目標對象 (負點)。用戶可以手動、交互式地提供查詢點,也可以從真實掩碼派生出查詢點。

考慮到它們的幾何位置或特征差異性,用戶可以使用不同的點采樣技術從真實掩碼中獲得查詢點,如圖 3 所示。這些采樣技術包括:隨機采樣、K-Medoids 采樣、Shi-Tomasi 采樣和混合采樣。

1fcf9fc8-1ec7-11ee-962d-dac502259ad0.png

點跟蹤。從查詢點開始,采用穩健的點跟蹤器在視頻中的所有幀中傳播點,從而得到點的軌跡和遮擋分數。

采用最先進的點跟蹤器 PIPS 來傳播點,因為 PIPS 對長期跟蹤挑戰 (如目標遮擋和再現) 顯示出適當的穩健性。實驗也表明,這比鏈式光流傳播或第一幀對應等方法更有效。

分割。在預測的軌跡中,未遮擋的點作為目標對象在整個視頻中的位置的指示器。這時就可以使用非遮擋點來提示 SAM,并利用其固有的泛化能力來輸出每幀分割掩碼預測(如圖 4 所示) 。

201e0de8-1ec7-11ee-962d-dac502259ad0.png

點跟蹤重新初始化。一旦達到 h = 8 幀的預測期,用戶就可以選擇使用預測掩碼對查詢點進行重新初始化,并將變體表示為 SAM-PT-reinit。在到達這個水平線時,會有 h 個預測的掩碼,并將使用最后一個預測的掩模來采樣新的點。在這一階段,之前所有的點都被丟棄,用新采樣點來代替。

根據上面的方法,就可以將這個視頻進行流暢的分割了,如下圖:

2072885a-1ec7-11ee-962d-dac502259ad0.gif

看看更多的展示效果:

219e813e-1ec7-11ee-962d-dac502259ad0.gif

2233b6f0-1ec7-11ee-962d-dac502259ad0.gif

SAM-PT 與以目標為中心的掩碼傳播的比較

SAM- PT 將稀疏點跟蹤與提示 SAM 相結合,并區別于傳統依賴于密集目標掩碼傳播的視頻分割方法,如表 1 所示。

與在訓練期間不利用視頻分割數據的方法相比,SAM-PT 有著與之相當甚至更好的表現。然而,這些方法與那些利用同一域中的視頻分割訓練數據的方法, 如 XMem 或 DeAOT 之間還是存在著性能差距。

綜上所述,SAM-PT 是第一個引入稀疏點傳播并結合提示圖像分割基礎模型,進行零樣本視頻對象分割的方法。它為關于視頻對象分割的研究提供了一個新的視角,并增加了一個新的維度。

22bf681c-1ec7-11ee-962d-dac502259ad0.png

實驗結果

對于視頻物體分割,研究團隊在四個 VOS 數據集上評估了他們的方法,分別是 DAVIS 2016, DAVIS 2017, YouTube-VOS 2018, 和 MOSE 2023。

對于視頻實例分割,他們在 UVO v1.0 數據集的 densevideo 任務上評估了該方法。

他們還用圖像實例分割中的標準評估指標來評估所提出方法,這也適用于視頻實例分割。這些指標包括平均準確率(AP)和基于 IoU 的平均召回率(AR)。

視頻物體分割的結果

在 DAVIS 2017 數據集上,本文提出的方法優于其他沒有經過任何視頻物體分割數據訓練的方法,如表 3 所示。

234101d8-1ec7-11ee-962d-dac502259ad0.png

SAM-PT 在 YouTube-VOS 2018 和 MOSE 2023 數據集上的表現也超過了 PerSAM-F,取得了 67.0 和 41.0 的平均分,如表 4、表 5 所示。然而,在不同的掩碼訓練數據下,與 SegGPT 相比,SAM-PT 在這兩個數據集上的表現有所欠缺。

23837c84-1ec7-11ee-962d-dac502259ad0.png

定性分析。在 DAVIS 2017 上對 SAM-PT 和 SAM-PTreinit 成功的視頻分割的可視化結果分別見圖 7a 和圖 7b。值得注意的是,圖 8 展示了對未知網絡視頻的成功視頻分割 —— 來自受動畫影響的動畫電視系列《降世神通:最后的氣宗》的片段,這表明了所提出方法的零樣本能力。

23a88a24-1ec7-11ee-962d-dac502259ad0.png

局限和挑戰。SAM-TP 的零樣本性能很有競爭力,但仍然存在著一些局限。這些局限主要集中在點跟蹤器在處理遮擋、小物體、運動模糊和重新識別方面。在這些方面,點跟蹤器的錯誤會傳播到未來的視頻幀中。

圖 7c 展示了 DAVIS 2017 中的這些問題實例,圖 9 展示了《降世神通:最后的氣宗》片段中的其他實例。

24815408-1ec7-11ee-962d-dac502259ad0.png

視頻實例分割的結果

在相同的遮罩建議下,SAM-PT 明顯優于 TAM,盡管 SAM-PT 沒有在任何視頻分割數據上訓練。TAM 是一個結合了 SAM 和 XMem 的并行方法,其中 XMem 在 BL30K 上進行了預訓練,并在 DAVIS 和 YouTube-VOS 上進行了訓練,但沒有在 UVO 上訓練。

另一方面,SAM-PT 結合了 SAM 和 PIPS 點跟蹤方法,這兩種方法都沒有經過視頻分割任務的訓練。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像分割
    +關注

    關注

    4

    文章

    182

    瀏覽量

    18019
  • 模型
    +關注

    關注

    1

    文章

    3267

    瀏覽量

    48922
  • SAM
    SAM
    +關注

    關注

    0

    文章

    112

    瀏覽量

    33545

原文標題:分割一切視頻版來了!SAM-PT:點幾下鼠標,視頻目標就分割出來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    用matlab編程實現圖像的字符分割

    請問,怎么用matlab編程實現將鎖個圖像進行字符分割,可將圖像中的七段數碼管單獨分割出來并保存?求程序代碼。。。。
    發表于 01-02 19:09

    matlab圖像分割

    `請問怎么用matlab怎么把圖中的荔枝分割出來??求代碼或者大概過程!!`
    發表于 05-27 23:44

    除了視頻分割,這款軟件還能進行視頻合并、壓縮、去水印

    喝醉般的表情管理的多段視頻片段分割出來并做成合集,你想不想也操作一波?下面小編來教你工具準備一臺電腦相關視頻片段迅捷視頻轉換器PC版軟件詳細步驟1.下載并安裝迅捷
    發表于 05-14 15:41

    基于筆畫提取和顏色模型的視頻文字分割算法

    提出綜合利用視頻文字時空、筆畫、顏色和幾何特征的文字分割算法,快速準確地從復雜背景的視頻圖像中分割出文字。利用多幀融合進行圖像增強,基于筆畫寬度特征,使用筆畫
    發表于 03-25 08:48 ?8次下載

    基于多層采樣多閾值的目標分割算法

    文中提出了一種新的閾值化方法用來在自適應背景的應用中把運動物體從景物中分割出來。傳統的方法是用一個簡單的閾值來分割物體,但是其中存在一個問題就是難以取得一
    發表于 12-18 16:12 ?9次下載

    3D視頻目標分割與快速跟蹤

    3D視頻目標分割與快速跟蹤_朱仲杰
    發表于 01-07 16:00 ?0次下載

    視覺顯著性目標分割提取

    圖像分割在許多圖像處理和機器視覺問題中是一個非常重要的過程,是將一幅圖分割成幾個顯著的區域,然而不能將其中最顯著的目標直接分割出來,需要進一步處理。為此本文采用顯著性檢測的算法實現了對
    發表于 12-06 14:27 ?0次下載

    使用OpenCv進行運動目標的檢測的課程論文免費下載

    運動目標檢測是智能視頻監控系統的重要組成部分它是指從視頻圖像序列中將變化的目標從背景中分割出來。一旦檢測出
    發表于 11-07 17:52 ?6次下載
    使用OpenCv進行運動<b class='flag-5'>目標</b>的檢測的課程論文免費下載

    動態外觀模型和高階能量的雙邊視頻目標分割方法

    針對復雜場景下視頻日標分割質量不佳和時間效率低下的問題,提岀了一種動態外觀模型和高階能量的雙邊視頻目標分割方法,將
    發表于 04-07 15:44 ?8次下載
    動態外觀模型和高階能量的雙邊<b class='flag-5'>視頻</b><b class='flag-5'>目標</b><b class='flag-5'>分割</b>方法

    分割相較圖像分割的優勢是啥?

    自動駕駛領域的下游任務,我認為主要包括目標檢測、語義分割、實例分割和全景分割。其中目標檢測是指在區域中提取
    的頭像 發表于 12-14 14:25 ?2772次閱讀

    SAM分割模型是什么?

    SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像。
    的頭像 發表于 05-20 09:30 ?2285次閱讀

    YOLOv8最新版本支持SAM分割一切

    分割任何模型 (Segment Anything Model - SAM) 是一種突破性的圖像分割模型,可實現具有實時性能的快速分割
    的頭像 發表于 06-18 11:42 ?1633次閱讀
    YOLOv8最新版本支持<b class='flag-5'>SAM</b><b class='flag-5'>分割</b>一切

    基于SAM設計的自動化遙感圖像實例分割方法

    RSPrompter的目標是學習如何為SAM生成prompt輸入,使其能夠自動獲取語義實例級掩碼。相比之下,原始的SAM需要額外手動制作prompt,并且是一種類別無關的分割方法。
    發表于 07-04 10:45 ?965次閱讀
    基于<b class='flag-5'>SAM</b>設計的自動化遙感圖像實例<b class='flag-5'>分割</b>方法

    復旦開源LVOS:面向真實場景的長時視頻目標分割數據集

    現有的視頻目標分割(VOS)數據集主要關注于短時視頻,平均時長在3-5秒左右,并且視頻中的物體大部分時間都是可見的。然而在實際應用過程中,用
    的頭像 發表于 09-04 16:33 ?1168次閱讀
    復旦開源LVOS:面向真實場景的長時<b class='flag-5'>視頻</b><b class='flag-5'>目標</b><b class='flag-5'>分割</b>數據集

    圖像分割目標檢測的區別是什么

    的區別。 定義 圖像分割是將圖像劃分為若干個區域或對象的過程,這些區域或對象具有相似的屬性,如顏色、紋理或形狀。圖像分割的目的是將圖像中的不同對象或區域分離出來,以便進行進一步的分析和處理。
    的頭像 發表于 07-17 09:53 ?1400次閱讀
    主站蜘蛛池模板: 欧美精品video| 日韩污| 亚洲欧美精品| 美女一区二区三区| 一级女性黄 色生活片| 成人黄网大全在线观看| 久久婷婷色综合老司机| 国产一级影院| 俄罗斯女人69xxx| 国产综合第一页在线视频| 国产三片高清在线观看| 亚洲五月六月丁香激情| 34pao强力打造免费永久视频| 午夜欧美在线| 亚洲综合欧美日本另类激情| 四虎影永久地址www| 男人的天堂色偷偷之色偷偷| 三区在线观看| 男女免费网站| 成人精品一区二区不卡视频| 婷婷操| 成人女人a毛片在线看| 亚洲第一网站| 国产精品偷伦费观看| 69日本xxxhd| 一国产大片在线观看| 日本老师xxxxxxxxx79| 韩国视频在线播放| 五月天婷婷综合| 福利社看片| 手机在线观看免费视频| 亚洲国产一区二区三区在线观看| 中文天堂在线视频| 在线观看精品视频看看播放| 四虎永久在线观看视频精品| 久久精品人| 午夜久久免费视频| 在线欧美三级| 91视频www| 亚洲欧美日韩色图| 美剧免费在线观看|