在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用CLIP 的2D 圖像-文本預習知識進行3D場景理解

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-10-29 16:54 ? 次閱讀

前言:

3D場景理解是自動駕駛機器人導航等領域的基礎。當前基于深度學習的方法在3D點云數據上表現出了十分出色的性能。然而,一些缺點阻礙了它們在現實世界中的應用。第一個原因是他們嚴重依賴大量的帶注釋點云,尤其是當高質量的3D注釋獲取成本高昂時。此外,他們通常不能識別訓練數據中從未見過的新物體。因此,可能需要額外的注釋工作來訓練模型識別這些新的對象,這既繁瑣又費時。

OpenAI的CLIP為緩解2D視覺中的上述問題提供了一個新的視角。該方法利用網站上大規模免費提供的圖文對進行訓練,建立視覺語言關聯,以實現有前景的開放詞匯識別。基于此,MaskCLIP做了基于CLIP的2D圖像語義分割的擴展工作。在對CLIP預訓練網絡進行最小修改的情況下,MaskCLIP可以直接用于新對象的語義分割,而無需額外的訓練工作。PointCLIP將CLIP的樣本分類問題從2D圖像推廣到3D點云。它將點云框架透視投影到2D深度圖的不同視圖中,以彌合圖像和點云之間的模態間隙。上述研究表明了CLIP在2D分割和3D分類性能方面的潛力。然而,CLIP是否可以及如何有利于3D場景理解仍有待探索。

本文探討了如何利用 CLIP 的2D 圖像-文本預習知識進行3D 場景理解。作者提出了一個新的語義驅動的跨模態對比學習框架,它充分利用 CLIP 的語義和視覺信息來規范3D 網絡。

作者主要的貢獻如下:

1、作者是第一個將CLIP知識提煉到3D網絡中用于3D場景理解的。

2、作者提出了一種新的語義驅動的跨模態對比學習框架,該框架通過時空和語義一致性正則化來預訓練3D網絡。

3、作者提出了提出了一種新的語義引導的時空一致性正則化,該正則化強制時間相干點云特征與其對應的圖像特征之間的一致性。

4、該方法首次在無注釋的三維場景分割中取得了良好的效果。當使用標記數據進行微調時,本文的方法顯著優于最先進的自監督方法。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

相關工作:

三維零樣本學習:

零樣本學習(ZSL)的目標是識別訓練集中看不見的對象。但是目前的方法主要都是基于2D識別的任務,對三維領域執行ZSL的研究特別有限。本文進一步研究了 CLIP 中豐富的語義和視覺知識對三維語義分割任務的影響。

自監督表征學習:

自我監督學習的目的是獲得有利于下游任務的良好表現。主流的方法是使用對比學習來與訓練網絡。受CLIP成功的啟發,利用CLIP的預訓練模型來完成下游任務引起了廣泛的關注。本文利用圖像文本預先訓練的CLIP知識來幫助理解3D場景。

跨模式知識蒸餾:

近年來,越來越多的研究集中于將二維圖像中的知識轉化為三維點云進行自監督表示學習。本文首先嘗試利用 CLIP 的知識對一個三維網絡進行預訓練。

具體方法:

本文研究了用于3D場景理解的CLIP的跨模態知識轉移,稱為CLIP2Scene。本文的工作是利用CLIP知識進行3D場景理解的先驅。本文的方法由三個主要組成部分組成:語義一致性正則化、語義引導的時空一致性規則化和可切換的自我訓練策略。

66151314-7633-11ee-939d-92fbcf53809c.png

圖1 語義驅動的跨模態對比學習圖解。首先,本文分別通過文本編碼器、圖像編碼器和點編碼器獲得文本嵌入、圖像像素特征和點特征。本文利用CLIP知識來構建用于對比學習的正樣本和負樣本。這樣就得到了點-文本對和短時間內的所有像素點文本對。因此,和分別用于語義一致性正則化和時空一致性規則化。最后,通過將點特征拉到其相應的文本嵌入來執行語義一致性正則化,并通過將時間上相干的點特征模仿到其對應的像素特征來執行時空一致性正則化。

CLIP2Scene

語義一致性正則化

由于CLIP是在2D圖像和文本上預先訓練的,作者首先關注的是2D圖像和3D點云之間的對應關系。具體的,使用既可以獲得圖像和點云的因此,可以相應地獲得密集的像素-點對應,其中和表示第i個成對的圖像特征和點特征,它們分別由CLIP的圖像編碼器和3D網絡提取。M是對數。

661e7012-7633-11ee-939d-92fbcf53809c.png

圖2 圖像像素到文本映射的圖示。密集像素-文本對應關系是通過MaskCLIP的方法提出的。

本文提出了一種利用CLIP的語義信息的語義一致性正則化。具體而言,本文通過遵循off-the-shelf方法MaskCLIP(圖2)生成密集像素文本對,其中是從CLIP的文本編碼器生成的文本嵌入。請注意,像素文本映射可從CLIP免費獲得,無需任何額外的訓練。然后,我們將像素文本對轉換為點文本對,并利用文本語義來選擇正點樣本和負點樣本進行對比學習。目標函數如下:其中,代表由第個類名生成,并且是類別的數量。表示標量積運算,是溫度項()。由于文本是由放置在預定義的模板中的類名組成,因此文本嵌入表示相應的類的語義信息。因此那些具有相同語義的點將被限制在相同的文本嵌入附近,而那些具有不同語義的點將被推開。為此,語義一致性正則化會減少對比學習中的沖突。

語義引導的時空一致性正則化

除了語義一致性正則化之外,本文還考慮圖像像素特征如何幫助正則化3D網絡。自然替代直接引入點特征及其在嵌入空間中的對應像素。然而,圖像像素的噪聲語義和不完美的像素點映射阻礙了下游任務的性能。為此,提出了一種新的語義引導的時空一致性正則化方法,通過對局部空間和時間內的點施加軟約束來緩解這一問題。

具體地,給定圖像和時間相干LiDAR點云,其中,是秒內掃描的次數。值得注意的是圖像與像素點對的點云第一幀進行匹配。本文通過校準矩陣將點云的其余部分配準到第一幀,并將它們映射到圖像上(圖3)。

66259144-7633-11ee-939d-92fbcf53809c.png

圖3 圖像像素到點映射(左)和語義引導的融合特征生成(右)示意圖。本文建立了在秒內圖像和時間相干激光雷達點云之間的網格對應關系,并且生成語義引到的融合特征。和用于執行時空一致性正則化。

因此,我們在短時間內獲得所有像素點文本對。接下來,作者將整個縫合的點云劃分為規則網格,其中時間相干點位于同一網格中。本文通過以下目標函數在各個網格內施加時空一致性約束:

其中,代表像素-點對位于第個網格。是一種語義引導的跨模態融合特征,由以下公式表示:

其中和是注意力權重是由以下來計算的:

其中代表溫度項。實際上,局部網格內的那些像素和點特征被限制在動態中心附近。因此,這種軟約束減輕了噪聲預測和校準誤差問題。同時,它對時間相干點特征進行了時空正則化處理。

實驗

數據集的選擇:兩個室外數據集 SemanticKITTI 和 nuScenes一個室內數據集 ScanNet

無注釋語義分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是針對不同數據集的無注釋的3D語義分割的性能表3 是無注釋三維語義分割的nuScenes數據集消融研究。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

高效注釋的語義分割

如表1所示,當對1%和100%nuScenes數據集進行微調時,該方法顯著優于最先進的方法,分別提高了8.1%和1.1%。與隨機初始化相比,改進幅度分別為14.1%和2.4%,表明了本文的語義驅動跨模態對比學習框架的有效性。定性結果如圖4所示。此外,本文還驗證了該方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

圖4 對1%nuScenes數據集進行微調的定性結果。從第一行到最后一行分別是輸入激光雷達掃描、真值、SLidR預測和我們的預測。請注意,我們通過誤差圖顯示結果,其中紅點表示錯誤的預測。顯然,本文的方法取得了不錯的性能。

結論

在這項名為CLIP2Scene的工作中,作者探討了CLIP知識如何有助于3D場景理解。為了有效地將CLIP的圖像和文本特征轉移到3D網絡中,作者提出了一種新的語義驅動的跨模態對比學習框架,包括語義正則化和時空正則化。作者的預訓練3D網絡首次以良好的性能實現了無注釋的3D語義分割。此外,當使用標記數據進行微調時,我們的方法顯著優于最先進的自監督方法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2894

    瀏覽量

    107658
  • 模型
    +關注

    關注

    1

    文章

    3268

    瀏覽量

    48926
  • Clip
    +關注

    關注

    0

    文章

    31

    瀏覽量

    6673
  • 深度學習
    +關注

    關注

    73

    文章

    5507

    瀏覽量

    121298

原文標題:結論

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AN-1249:使用ADV8003評估板將3D圖像轉換成2D圖像

    電子發燒友網站提供《AN-1249:使用ADV8003評估板將3D圖像轉換成2D圖像.pdf》資料免費下載
    發表于 01-08 14:28 ?0次下載
    AN-1249:使用ADV8003評估板將<b class='flag-5'>3D</b><b class='flag-5'>圖像</b>轉換成<b class='flag-5'>2D</b><b class='flag-5'>圖像</b>

    TechWiz LCD 3D應用:局部液晶配向

    我們所說的局部摩擦是指給液晶盒中不同區域(可自定義區域)進行不同的液晶配向,所以也可以稱之為局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以對液晶盒設置局部摩擦
    發表于 01-03 08:58

    UV光固化技術在3D打印中的應用

    UV光固化3D打印技術憑借高精度、快速打印環保優勢,在工業設計等領域廣泛應用。SLA、DLP及CLIP技術各具特色,推動3D打印向高速、高精度發展。
    的頭像 發表于 11-15 09:35 ?440次閱讀
    UV光固化技術在<b class='flag-5'>3D</b>打印中的應用

    3D封裝熱設計:挑戰與機遇并存

    隨著半導體技術的不斷發展,芯片封裝技術也在持續進步。目前,2D封裝和3D封裝是兩種主流的封裝技術。這兩種封裝技術在散熱路徑和熱設計方面有著各自的特點和挑戰。本文將深入探討2D封裝和3D
    的頭像 發表于 07-25 09:46 ?1469次閱讀
    <b class='flag-5'>3D</b>封裝熱設計:挑戰與機遇并存

    蘇州吳中區多色PCB板元器件3D視覺檢測技術

    3D視覺檢測相較于2D視覺檢測,有其獨特的優勢,不受產品表面對比度影響,精確檢出產品形狀,可以測出高度(厚度)、體積、平整度等。在實際應用中可以與2D結合做檢測。利用
    的頭像 發表于 06-14 15:02 ?431次閱讀
    蘇州吳中區多色PCB板元器件<b class='flag-5'>3D</b>視覺檢測技術

    英倫科技的15.6寸2D-3D可切換光場裸眼3D顯示屏有哪些特點?

    隨著科技的快速發展,人類對于視覺體驗的追求也在不斷攀升。從平面的2D圖像到立體的3D影像,我們一直在探索如何讓虛擬世界更加逼真。如今,英倫科技憑借其創新實力,推出了一款革命性的顯示設備——15.6寸
    的頭像 發表于 05-28 11:17 ?384次閱讀
    英倫科技的15.6寸<b class='flag-5'>2D-3D</b>可切換光場裸眼<b class='flag-5'>3D</b>顯示屏有哪些特點?

    銀牛微電子引領3D空間計算芯片前沿技術

    在此次活動上,銀牛微電子有限責任公司的周凡博士指出,2D視覺已無法滿足日益復雜的系統需求,因此我們需要引入更多維度來輔助機器人和智能設備更好地理解并融入真實環境,即從2D3D轉變。
    的頭像 發表于 05-18 16:34 ?927次閱讀

    NVIDIA Instant NeRF將多組靜態圖像變為3D數字場景

    想象一幅風光旖旎的畫面,比如水畔的懸崖峭壁。即便只是 2D 圖像,如此美景依舊令人心馳神往。如果同一畫面能以 3D 效果展現,那么無需跋涉就能身臨其境。
    的頭像 發表于 05-07 09:15 ?424次閱讀

    通過2D/3D異質結構精確控制鐵電材料弛豫時間

    受經典德拜弛豫啟發的米勒模型提供了通過操縱弛豫時間來控制自發極化的理論框架。作者通過使用層轉移技術形成的2D/C-3D/2D異質結構克服了傳統異質結存在的鐵電性惡化和能量損失的問題。
    的頭像 發表于 04-29 10:27 ?726次閱讀
    通過<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>異質結構精確控制鐵電材料弛豫時間

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎改造而成,使用者可直觀地進行3D場景構建,包括模型、材質和燈光等要素。借助其強大功能,能夠生成極具觀賞性的
    的頭像 發表于 03-20 10:28 ?775次閱讀

    有了2D NAND,為什么要升級到3D呢?

    2D NAND和3D NAND都是非易失性存儲技術(NVM Non-VolatileMemory),屬于Memory(存儲器)的一種。
    的頭像 發表于 03-17 15:31 ?1066次閱讀
    有了<b class='flag-5'>2D</b> NAND,為什么要升級到<b class='flag-5'>3D</b>呢?

    Nullmax提出多相機3D目標檢測新方法QAF2D

    今天上午,計算機視覺領域頂會CVPR公布了最終的論文接收結果,Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2D Detection-Guided Query A
    的頭像 發表于 02-27 16:38 ?1171次閱讀
    Nullmax提出多相機<b class='flag-5'>3D</b>目標檢測新方法QAF<b class='flag-5'>2D</b>

    Adobe提出DMV3D3D生成只需30秒!讓文本圖像都動起來的新方法!

    因此,本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能直接根據模型文字或單張圖片的輸入,生成 3D
    的頭像 發表于 01-30 16:20 ?885次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!讓<b class='flag-5'>文本</b>、<b class='flag-5'>圖像</b>都動起來的新方法!

    高分工作!Uni3D3D基礎大模型,刷新多個SOTA!

    我們主要探索了3D視覺中scale up模型參數量和統一模型架構的可能性。在NLP / 2D vision領域,scale up大模型(GPT-4,SAM,EVA等)已經取得了很impressive
    的頭像 發表于 01-30 15:56 ?916次閱讀
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基礎大模型,刷新多個SOTA!

    介紹一種使用2D材料進行3D集成的新方法

    美國賓夕法尼亞州立大學的研究人員展示了一種使用2D材料進行3D集成的新穎方法。
    的頭像 發表于 01-13 11:37 ?1092次閱讀
    主站蜘蛛池模板: 在线精品小视频| 日本不卡专区| 久久免费视频99| 你懂的亚洲| 亚洲三级在线| 精品欧美| 中文字幕一区2区3区| 日本一区二区三区在线 视频观看免费 | 亚洲日本一区二区| 2018天天操夜夜操| 天天操天天干天天透| 天天做天天爱天天综合网| 国产精品高清一区二区三区| 国产一区二区高清在线| ts人妖在线观看| 视频福利网| 亚洲好骚综合| 色精品视频| 波多野结衣50连精喷在线| 制服丝袜在线一区| 在线免费日韩| 三级色图| 国产一级爱c片免费播放| 夜夜爽夜夜操| 国产天美| 亚洲欧美一区二区三区图片 | 国产亚洲小视频| 亚洲视频一二三| 亚洲大尺度视频| 男人的天堂免费视频| www.avtt天堂网| 久久精品国产福利| 亚洲国产日韩女人aaaaaa毛片在线| 99久久99这里只有免费费精品| 日韩毛片免费视频| 成 年 人 视频在线播放| 国产麻豆成人传媒免费观看| bt天堂资源种子在线| 国产亚洲精品久久久久久牛牛| 亚洲精品一卡2卡3卡三卡四卡| 性生大片一级毛片免费观看|