前言:
本文是第一篇將NLP領(lǐng)域中的In-Context Learning(ICL)引入3D點(diǎn)云理解的文章。該文首次提出將ICL應(yīng)用于多任務(wù)3D點(diǎn)云模型Point-In-Context(PIC),實(shí)現(xiàn)一個(gè)模型一次訓(xùn)練,適應(yīng)多種任務(wù),驗(yàn)證了ICL在3D點(diǎn)云中的可行性。同時(shí),該文為in-context learning定義一個(gè)統(tǒng)一的衡量基準(zhǔn),涵蓋幾種常見的點(diǎn)云任務(wù),并構(gòu)建了常見點(diǎn)云分析算法的多任務(wù)模型baseline。最后該文進(jìn)行了大量的實(shí)驗(yàn),PIC在3D點(diǎn)云多任務(wù)處理上達(dá)到了SOTA的效果,并且驗(yàn)證了PIC可以通過選擇更高質(zhì)量的prompt來提升效果甚至超越特定于單一任務(wù)的模型,為未來3D點(diǎn)云中ICL的研究方向開拓了方向。
摘要:
隨著基于廣泛數(shù)據(jù)訓(xùn)練的大模型興起,上下文學(xué)習(xí)(In-Context Learning)已成為一種新的學(xué)習(xí)范式,在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)任務(wù)中表現(xiàn)出了巨大的潛力。與此同時(shí),在3D點(diǎn)云(Point Cloud)領(lǐng)域中,上下文學(xué)習(xí)在很大程度上仍未得到探索。盡管掩碼建模(Masked Modeling)訓(xùn)練策略已經(jīng)成功應(yīng)用于2D視覺中的上下文學(xué)習(xí),但將其直接擴(kuò)展到3D點(diǎn)云上仍然是一個(gè)艱巨的挑戰(zhàn)。因?yàn)樵邳c(diǎn)云的情況下,tokens本身就是在訓(xùn)練過程中被掩蓋的點(diǎn)云位置(坐標(biāo))。此外,先前一些工作中的位置嵌入(Position Embedding)方式可能會(huì)無意中導(dǎo)致目標(biāo)點(diǎn)云產(chǎn)生信息泄漏。為了應(yīng)對(duì)這些挑戰(zhàn),作者提出了一個(gè)專為3D點(diǎn)云上下文學(xué)習(xí)而設(shè)計(jì)的新型框架Point-In-Context(PIC),且將每個(gè)任務(wù)的輸入和輸出都建模為點(diǎn)的三維坐標(biāo)。其中,作者提出的聯(lián)合采樣(Joint Sampling)模塊與通用點(diǎn)采樣算子協(xié)同工作,有效解決了上述技術(shù)問題(信息泄露)。最后作者進(jìn)行了大量的實(shí)驗(yàn),以驗(yàn)證Point-In-Context在處理多任務(wù)時(shí)的多功能性和適應(yīng)性。此外,作者還證明了Point-In-Context可以通過采用更有效的提示(Prompt)選擇策略,生成更精確的結(jié)果并超越單獨(dú)訓(xùn)練的模型。
論文和開源倉庫的地址:
論文題目:Explore In-Context Learning for 3D Point Cloud Understanding
發(fā)表單位:中山大學(xué),南洋理工大學(xué),蘇黎世聯(lián)邦理工學(xué)院,北京大學(xué)
論文地址:https://arxiv.org/pdf/2306.08659.pdf
項(xiàng)目地址:https://github.com/fanglaosi/Point-In-Context
提交時(shí)間:2023年6月14日
1. 背景介紹
圖1 In-Context Learning應(yīng)用于多任務(wù)處理的示意圖
In-Context Learning(ICL)源于自然語言處理(NLP),通過將特定于任務(wù)的輸入-輸出對(duì)(Prompt)合并到一個(gè)測(cè)試示例中,再輸入到模型中進(jìn)行處理,從而獲得對(duì)應(yīng)任務(wù)的輸出,如圖1(a)所示。最近在2D圖像領(lǐng)域基于ICL的工作主要采用掩碼圖像建模(Masked Image Modeling)訓(xùn)練策略進(jìn)行上下文任務(wù)提示,如圖1(b)所示。然而,目前還沒有研究探索使用掩碼點(diǎn)建模框架理解3D點(diǎn)云的In-Context Learning。
對(duì)于Masked Modeling訓(xùn)練策略,前期的研究主要集中在自然語言處理中的GPT和BERT系列模型以及2D圖像領(lǐng)域的BEiT和MAE等。這些方法通過掩碼建模和下游任務(wù)微調(diào)顯著提升了自然語言處理和圖像處理的性能。在3D點(diǎn)云領(lǐng)域,Point-BERT和Point-MAE等方法采用了類似的思路,使用Transformer和掩碼點(diǎn)建模來處理3D點(diǎn)云數(shù)據(jù),并在各種下游任務(wù)上取得了競(jìng)爭(zhēng)性的性能。
本文的方法基于Masked Point Modeling(MPM)框架,探索了Transformer和MPM的結(jié)合,以實(shí)現(xiàn)3D點(diǎn)云領(lǐng)域的In-Context Learning。與之前的研究不同,本文的方法首次探索了3D prompt對(duì)3D點(diǎn)云中In-Context Learning的影響,并為3D點(diǎn)云中In-Context Learning的基準(zhǔn)測(cè)試提出了新的baseline。
本文是第一個(gè)將In-Context Learning應(yīng)用于3D點(diǎn)云領(lǐng)域的工作,并提出了一個(gè)適應(yīng)于多種常見點(diǎn)云任務(wù)的多任務(wù)框架Point-In-Context。它通過上下文任務(wù)提示可以調(diào)節(jié)模型的輸入和輸出,適應(yīng)不可見任務(wù)的推理。本文探索了在3D點(diǎn)云領(lǐng)域應(yīng)用In-Context Learning的方法,強(qiáng)調(diào)了其在點(diǎn)云領(lǐng)域的創(chuàng)新性和首創(chuàng)性,為進(jìn)一步推動(dòng)3D點(diǎn)云領(lǐng)域的研究和應(yīng)用提供了新的方向和參考。
2. 研究方法
2.13 3D點(diǎn)云中的ICL建模
受2D圖像中的ICL啟發(fā),作者設(shè)計(jì)了一個(gè)3D視覺的ICL范式。在訓(xùn)練過程中,每個(gè)輸入樣本包含兩對(duì)點(diǎn)云:示例對(duì)和查詢輸入對(duì)。每對(duì)點(diǎn)云由一個(gè)輸入點(diǎn)云及其相應(yīng)的輸出點(diǎn)云組成。與PointMAE類似,作者采用FPS和KNN技術(shù),將點(diǎn)云轉(zhuǎn)換為類似句子的數(shù)據(jù)格式后利用Transformer進(jìn)行Masked Point Modeling任務(wù)。在推理過程中,輸入點(diǎn)云是示例輸入點(diǎn)云和查詢點(diǎn)云,而目標(biāo)點(diǎn)云由一個(gè)示例目標(biāo)和掩碼標(biāo)記組成,如圖1(c)所示?;诓煌?img src="https://file1.elecfans.com//web2/M00/9E/8D/wKgaomToCyWAG9KbAAABkPTOiZ4723.png" alt="5229f4e2-213c-11ee-962d-dac502259ad0.png" />,給定查詢點(diǎn)云,模型輸出相應(yīng)的目標(biāo)。
2.2 數(shù)據(jù)集及任務(wù)定義
由于先前的工作中沒有研究過3D的ICL,所以作者以ShapeNet和ShapeNetPart數(shù)據(jù)集為基礎(chǔ)定義了新的benchmark,包含四種常見的點(diǎn)云任務(wù):點(diǎn)云重建,點(diǎn)云去噪,點(diǎn)云配準(zhǔn)和部件分割。并且將這四種任務(wù)的輸入輸出空間都統(tǒng)一到XYZ坐標(biāo)空間當(dāng)中。
點(diǎn)云重建的目的是由極其稀疏的點(diǎn)云重建成稠密的完整點(diǎn)云。本文設(shè)置了5個(gè)重建等級(jí)作為評(píng)價(jià)標(biāo)準(zhǔn),分別是當(dāng)輸入點(diǎn)云為512,256,128,64和32個(gè)點(diǎn)時(shí),點(diǎn)數(shù)越少,重建難度越高。點(diǎn)云去噪任務(wù)中的輸入點(diǎn)云包含符合正態(tài)分布的高斯噪聲點(diǎn),要求模型去除噪聲點(diǎn),同時(shí)設(shè)立了5個(gè)等級(jí)的噪聲干擾,噪聲點(diǎn)數(shù)量范圍從100到500。重建和去噪的任務(wù)輸出是一個(gè)干凈,正立的點(diǎn)云,為了將點(diǎn)云配準(zhǔn)任務(wù)的目標(biāo)點(diǎn)云與前兩個(gè)任務(wù)解耦,本文將配準(zhǔn)任務(wù)的輸出設(shè)為干凈,倒立的點(diǎn)云。
部件分割任務(wù)的目的是給每個(gè)點(diǎn)分配一個(gè)部件標(biāo)簽,作者將其輸出空間的50個(gè)部件標(biāo)簽抽象為均分分布在立方體內(nèi)的50個(gè)點(diǎn),每個(gè)點(diǎn)代表不同的部件。因此部件分割任務(wù)的輸出是聚類到不同中心的點(diǎn)簇,輸出點(diǎn)簇的數(shù)量由部件數(shù)量決定。
2.3 Point-In-Context
圖2 信息泄露問題及解決方案(聯(lián)合采樣模塊)
信息泄露。雖然MPM是我們的一個(gè)基本框架,但簡(jiǎn)單地將其應(yīng)用于點(diǎn)云是不可行的。如圖2(a)所示,之前工作中預(yù)訓(xùn)練時(shí)會(huì)嵌入了所有patch的中心點(diǎn)坐標(biāo)(即位置信息),即使是那些被屏蔽(不可見)的patch。由于在目標(biāo)中被屏蔽的patch在我們的設(shè)置中是不可見的,所以這樣的操作會(huì)導(dǎo)致信息泄漏,從而不滿足要求。此外,我們還發(fā)現(xiàn),與學(xué)習(xí)到的嵌入相比,正弦-余弦編碼序列會(huì)顯著降低模型的性能,甚至?xí)?dǎo)致訓(xùn)練的崩潰。原因是缺少有價(jià)值的位置信息,使得模型無法在處理過程中找到需要重建的patch。與2D圖像不同,3D點(diǎn)云patch序列沒有固定的位置,因此我們需要對(duì)由輸入點(diǎn)云和目標(biāo)點(diǎn)云生成的patch序列進(jìn)行對(duì)齊。
聯(lián)合采樣模塊。為了處理上述問題,我們從每個(gè)輸入點(diǎn)云中收集N個(gè)中心點(diǎn),并檢索它們的索引,然后我們使用這些索引來獲取輸入點(diǎn)云和目標(biāo)點(diǎn)云中每個(gè)patch的中心點(diǎn)。該過程如圖2(b)所示,我們的JS模塊的關(guān)鍵是在保持目標(biāo)點(diǎn)云和輸入點(diǎn)云中對(duì)應(yīng)patch的中心點(diǎn)索引。換句話說,輸入序列和目標(biāo)序列的順序是良好對(duì)齊的。這種設(shè)計(jì)補(bǔ)償了目標(biāo)位置嵌入的缺失,避免信息泄露。因此,它有助于使模型學(xué)習(xí)輸入和目標(biāo)之間的內(nèi)在關(guān)聯(lián),并簡(jiǎn)化了學(xué)習(xí)過程。隨后,所有點(diǎn)云根據(jù)每個(gè)斑塊對(duì)應(yīng)的中心點(diǎn)搜索包含M個(gè)相鄰點(diǎn)的鄰域。
圖3 Point-In-Context的兩種輸入形式
PIC-Sep和PIC-Cat。如圖3所示,我們定義了兩種輸入形式,對(duì)應(yīng)PIC的兩種形式,分別是PIC-Sep和PIC-Cat。對(duì)于PIC-Sep,我們將輸入點(diǎn)云和帶有掩碼的目標(biāo)點(diǎn)云平行輸入到Transformer中,然后在幾個(gè)block之后使用一個(gè)簡(jiǎn)單的平均值進(jìn)行融合操作合并它們的特征。對(duì)于PIC-Cat,我們將輸入和目標(biāo)連接起來,形成一個(gè)新的點(diǎn)云。然后我們?cè)谡w上進(jìn)行掩碼操作,并將其輸入到Transformer中進(jìn)行預(yù)測(cè)。
我們將prompt表示為,將查詢輸入表示為,然后PIC-Sep和PIC-Cat可以公式化為:
其中 代表Concat操作,代表用來代替可見token的掩碼token。
圖4 PIC-Sep的總體方案
總體流程如圖4所示(以PIC-Sep為例)。我們使用一個(gè)標(biāo)準(zhǔn)的具有編碼器-解碼器結(jié)構(gòu)的Transformer作為我們的主干網(wǎng)絡(luò),和一個(gè)簡(jiǎn)單的1×1卷積層作為點(diǎn)云重建的任務(wù)頭。頂部:MPM框架的訓(xùn)練框架。在訓(xùn)練過程中,每個(gè)樣本包含兩對(duì)輸入和目標(biāo)點(diǎn)云,它們被輸入到Transformer中執(zhí)行掩碼點(diǎn)重建任務(wù)。底部:關(guān)于多任務(wù)的in-context inference。我們的PIC可以推斷出各種下游點(diǎn)云任務(wù)的結(jié)果,包括點(diǎn)云重建、去噪、配準(zhǔn)和部件分割。
損失函數(shù)。該模型的訓(xùn)練目的是重建出被掩蔽掉的點(diǎn)。為此,我們使用 Chamfer Distance作為訓(xùn)練損失。
3.實(shí)驗(yàn)結(jié)果
表1 主要實(shí)驗(yàn)結(jié)果對(duì)比
作者在四個(gè)常見點(diǎn)云任務(wù)上進(jìn)行了實(shí)驗(yàn),分別對(duì)比了特定于任務(wù)的模型、多任務(wù)模型和In-context learning模型。對(duì)于重建、去噪和配準(zhǔn),本文報(bào)告了CD距離損失(x1000)。對(duì)于部分分割,報(bào)告了mIOU。由表可見,本文的PIC-Cat和PIC-Sep表現(xiàn)出了令人印象深刻的結(jié)果,并且僅在一次訓(xùn)練后就能夠適應(yīng)不同的任務(wù),在于多任務(wù)模型的比較中都取得了最先進(jìn)的結(jié)果。
圖5 可視化結(jié)果
此外,本文還可視化了PIC-Sep的輸出結(jié)果,PIC-Sep可以在重構(gòu)、去噪、配準(zhǔn)和部分分割等四個(gè)任務(wù)中生成相應(yīng)的預(yù)測(cè)。對(duì)于部分分割任務(wù),我們將生成的目標(biāo)和映射目標(biāo)一起可視化,兩者都添加了類別的顏色,以便更好地比較。
圖6 泛化能力。(a)在ModelNet40上進(jìn)行點(diǎn)云配準(zhǔn)任務(wù)的結(jié)果(b)泛化到新任務(wù)上
通常,In-Context Learning具有一定程度的泛化能力,從而允許模型快速適應(yīng)不同的任務(wù)。這也適用于我們的模型。首先,本文通過對(duì)ModelNet40數(shù)據(jù)集進(jìn)行配準(zhǔn)評(píng)估,在分布外點(diǎn)云上測(cè)試了所提出的方法。如圖6(a)所示,PIC-Sep和PIC-Cat在開放類任務(wù)上都表現(xiàn)出優(yōu)于專門訓(xùn)練的監(jiān)督學(xué)習(xí)模型。我們將其與在單個(gè)任務(wù)上訓(xùn)練的模型進(jìn)行了比較,如PointNet、DGCNN和PCT。當(dāng)轉(zhuǎn)移到新的數(shù)據(jù)集時(shí),這些模型的性能明顯下降。難度越大(旋轉(zhuǎn)水平越高),下降量就越多。
此外,本文還驗(yàn)證了它們?cè)谖粗蝿?wù)上的泛化能力,如任意角度配準(zhǔn)的和局部補(bǔ)全。如圖6(b)所示,PIC在這兩個(gè)任務(wù)上都表現(xiàn)得很好,驗(yàn)證了它們轉(zhuǎn)移學(xué)習(xí)知識(shí)的能力。
本文進(jìn)行了大量的消融實(shí)驗(yàn)。其中應(yīng)該特別注意的是,在表2(a)和表4(a)中作者初步探索了四種不同的prompt選擇策略對(duì)于結(jié)果的影響。除了隨機(jī)選擇的方案,另外三種方案的結(jié)果都比默認(rèn)的方案效果好。這也體現(xiàn)出in-context learning巨大的潛力,這說明PIC可以通過選擇更加適合的prompt來提升在點(diǎn)云任務(wù)上的性能。甚至,PIC-Sep在CD-aware策略的點(diǎn)云配準(zhǔn)任務(wù)上超越了表1中的三種特定于任務(wù)的模型。
圖7 PIC與多任務(wù)模型比較結(jié)果的可視化
4. 未來展望
本文提出了第一個(gè)采用In-Context Learning范式來理解3D點(diǎn)云的框架,Point-In-Context。并且建立了一個(gè)包含四個(gè)基本任務(wù)的大規(guī)模點(diǎn)云對(duì)數(shù)據(jù)集,以驗(yàn)證in-context能力。PIC具有良好的學(xué)習(xí)能力,它對(duì)分布外的樣本和不可見的任務(wù)具有良好的泛化能力。同時(shí),通過選擇更高質(zhì)量的prompt,可以激發(fā)出PIC中巨大的潛力,甚至超越特定于一個(gè)任務(wù)的模型。它為進(jìn)一步探索三維模式中的In-Context Learning開拓了探索方向。由于時(shí)間和計(jì)算資源有限,本文沒有進(jìn)行更多的實(shí)驗(yàn),如提升模型的生成結(jié)果的精細(xì)度和在大規(guī)模場(chǎng)景分割點(diǎn)云數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。這將是未來會(huì)繼續(xù)研究的方向。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45993 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701 -
點(diǎn)云
+關(guān)注
關(guān)注
0文章
58瀏覽量
3792
原文標(biāo)題:首篇!Point-In-Context:探索用于3D點(diǎn)云理解的上下文學(xué)習(xí)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論