在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Wayve:從源頭講起,如何實現(xiàn)以對象為中心的自監(jiān)督感知方法?

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-07-29 14:54 ? 次閱讀

Wayve:從源頭講起,如何實現(xiàn)以對象為中心的自監(jiān)督感知方法?

1. 摘要

以對象中心的表示使自主駕駛算法能夠推理大量獨立智能體和場景特征之間的交互。傳統(tǒng)上,這些表示是通過監(jiān)督學(xué)習(xí)獲得的,但會使感知與下游駕駛?cè)蝿?wù)分離,可能會降低模型的泛化能力。在這項工作中,我們設(shè)計了一個以對象為中心的自監(jiān)督視覺模型,僅使用RGB視頻和車輛姿態(tài)作為輸入來實現(xiàn)進行對象分割。我們在Waymo公開感知數(shù)據(jù)集上證明了我們的方法取得了令人滿意的結(jié)果。我們發(fā)現(xiàn)我們的模型能夠?qū)W習(xí)一種隨時間推移融合多個相機姿勢的表示,并在數(shù)據(jù)集中成功跟蹤大量車輛和行人。我們介紹了該方法的起源和具體實現(xiàn)方法,并指明了未來的發(fā)展方向,為了幫助大家更好地復(fù)現(xiàn)代碼,我們將詳細地參數(shù)列入附表。

論文地址:https://arxiv.org/abs/2307.07147

模型代碼:https://github.com/wayveai/SOCS。

2. 方法起源

人類和機器人有一種傾向,即認(rèn)為對象的行為是單一連貫的,這是一種與生俱來的感知法則。對象在人類視覺中發(fā)揮著核心作用。我們根據(jù)特征將對象分組,用它們來描述我們周圍的環(huán)境,同時,為我們不熟悉的對象尋找語義標(biāo)簽。當(dāng)使用視覺表示進行下游任務(wù)時,如機器人技術(shù)等,對象中心模型是令人滿意的:因為它們比端到端模型更容易被人類理解——這對驗證安全性和贏得人類對視覺系統(tǒng)的信任非常重要。除此之外,以對象為中心的表示還提供了一套多樣而強大的推理真實世界的工具,如物理理解模型、多智能體預(yù)測和規(guī)劃模型以及因果推理模型。支持這類模型的表示可能對自動駕駛至關(guān)重要,因為在自動駕駛中,使用這些表示對大量相互作用的智能體和物理因素進行推理,可以獲得車輛的最佳運動軌跡。

傳統(tǒng)上,以對象中心的表示是通過訓(xùn)練監(jiān)督對象檢測模型,并從中提取對象屬性(如位置和速度)來實現(xiàn)的。這種方法有兩大缺點。首先,它需要與檢測對象相匹配的帶標(biāo)簽數(shù)據(jù)集,而大規(guī)模獲取帶標(biāo)簽數(shù)據(jù)集的成本很高,而且可能會引入不必要的偏差。另外,為了使系統(tǒng)能夠處理新的對象或新的環(huán)境,必須收集新的帶標(biāo)簽的數(shù)據(jù)。沒有足夠正確標(biāo)注的數(shù)據(jù)會影響這類方法的泛化能力,但這正是以對象為中心的自監(jiān)督模型的關(guān)鍵優(yōu)勢之一。

其次,根據(jù)有監(jiān)督的視覺模型預(yù)測創(chuàng)建的對象表示,會使感知和決策組件之間脫節(jié)。例如,騎自行車的人應(yīng)該被視為一個對象還是兩個對象?兩人乘雙人自行車又如何?他們在向人行道上的行人揮手重要嗎?如果他們正在打轉(zhuǎn)向手勢呢?這些問題的正確答案取決于如何使用信息做出決策。理想情況下,感知行為的結(jié)果應(yīng)該反饋并改善感知本身,利用端到端學(xué)習(xí),可以找到比手工設(shè)計更好的以對象為中心的表示。

這些考慮激發(fā)了以對象為中心的自監(jiān)督感知模型的設(shè)計,這種模型將圖像編碼到一個將相關(guān)信息劃分為多個“槽”的潛在空間中,然后這些槽中的信息被解碼為自監(jiān)督目標(biāo),如例如重建原始RGB輸入,以及用于下游任務(wù)。已經(jīng)有不少論文提出了各種方法,來鼓勵模型在單個槽中編碼關(guān)于不同對象的信息,例如通過使用使槽在像素上競爭注意力的編碼器,或者通過不同的自動編碼器損失來鼓勵槽解碼。然而,這些方法在復(fù)雜的現(xiàn)實世界數(shù)據(jù)中難以獲得良好的結(jié)果。最近,SAVi++算法在Waymo真實世界駕駛視頻公開數(shù)據(jù)集上顯示了其分割能力。然而,這些結(jié)果需要額外的深度監(jiān)督,而且需要初始對象與周圍環(huán)境邊界的槽,才能夠獲得最佳性能。

基于上述考慮,我們提出了一種僅使用RGB視頻和相機運動信息進行自監(jiān)督分割的模型,并在真實駕駛視頻上獲得了良好的的結(jié)果。相機運動信息在自動駕駛車輛中容易獲得(例如來自同時定位與建圖(SLAM)或輪組測距),而且不需要專用激光雷達等傳感器,因此是一種特別經(jīng)濟的方法。

3. 方法實現(xiàn)

我們的模型架構(gòu)建立在SIMONe的視圖監(jiān)督變體上。該模型的目標(biāo)是將場景分割為一組K個對象槽,對場景中每個對象的信息進行編碼。通過以下步驟可以獲得這些槽。首先,輸入X(F幀圖像序列,可選擇從多相機視點)由標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)(CNN)并行處理,得到一組特征補丁。補丁與位置嵌入連接,位置嵌入在每個補丁源圖像內(nèi)的位置,以及與源圖像相關(guān)的時間和視點變換矩陣進行編碼。然后,它們作為僅解碼transformer的輸入信號。輸出標(biāo)記在整個圖像維度上的平均值。在原始SIMONe模型中,這個維度對應(yīng)于單個相機在幾個時間點上拍攝的圖像;但在這項工作中,我們使用了三個不同的姿勢的相機,在時間和視點上進行取平均值。最后,通過MLP將每個信號解碼為m維向量和,這兩個向量分別包含單個槽中潛預(yù)測平均值和方差。如果輸入信號的數(shù)量與所需的槽的數(shù)量不同,則在transformer層的中途可選地進行跨信號特征的空間池化操作。具體模型如下圖所示。

5432909c-2dc5-11ee-815d-dac502259ad0.png

3.1. 訓(xùn)練和損失

為了鼓勵模型在不同的槽中存儲不同對象的信息,在訓(xùn)練期間我們應(yīng)用三個互補的損失。第一項是每個槽潛在向量與單位正態(tài)分布之間的KL散度之和,對所有槽求和:

其中是輸入幀,是槽 的m維正態(tài)分布,均值和方差由模型預(yù)測,先驗分布是一個單位球面正態(tài)分布。直觀地,這個損失鼓勵模型避免使用多個槽表示同一對象,因為與使用單個槽表示對象并讓其他槽保持接近單位正態(tài)分布相比,這樣做會導(dǎo)致更大的懲罰。這個損失還鼓勵潛在向量的每個維度之間解耦。

第二個損失基于模型執(zhí)行對象級重建任務(wù)的能力。首先,根據(jù)每個槽 的潛在分布獲取對象的潛在向量。然后,每個被獨立解碼到空間廣播解碼器進行逐像素預(yù)測。為了滿足模型計算要求和內(nèi)存需求,在訓(xùn)練期間每個輸入序列中僅對N個隨機像素進行解碼。每個槽 對每個像素的預(yù)測結(jié)果用RGB分布表示。和邏輯單元 (經(jīng)過槽歸一化)表示槽 表示像素的可能性。為了獲得每個像素的最終預(yù)測,我們?nèi)∶總€槽預(yù)測的加權(quán)混合:

其中針對像素的每槽分布經(jīng)softmax后的值加權(quán):

的分布在第3.3節(jié)中進行了更詳細的討論。

最后,重建損失是每個像素在混合分布下的真實RGB值的對數(shù)概率:

由于每個槽的對象潛變量被獨立解碼,模型被迫在預(yù)測每個像素的RGB值時一次只使用單個槽中編碼的信息。因此,直觀地,這個損失鼓勵模型將預(yù)測像素的顏色所需的所有信息存儲在單個槽中。

另外,學(xué)習(xí)到的槽表示還可以用于各種輔助任務(wù)。在本文中,受到對象與自動駕駛環(huán)境中相關(guān)的表示與用于預(yù)測良好駕駛動作的表示之間的密切聯(lián)系的啟發(fā),我們實驗使用預(yù)測車輛自身的未來路徑作為輔助任務(wù)。在圖像池化步驟之后,槽信息經(jīng)過兩個Transformer 解碼器層,求平均值,并通過單層MLP解碼成一系列預(yù)測偏移量,在自我參考幀的xy平面上。然后我們應(yīng)用以下任務(wù)損失:

其中匯總是對每個未來時間點。我們使用以10Hz頻率開始于最后圖像幀之后0.1秒的自我參考幀中的16個未來路徑。

最終訓(xùn)練損失與負ELBO損失類似,增加了輔助任務(wù)損失:

其中和超參數(shù)平衡不同的損失項。

3.2. 附加的模型輸出

除了參數(shù)化加權(quán)混合像素分布,權(quán)重還作為每一個槽 的α 掩碼,使我們可以非常直觀地看到每個槽關(guān)注場景的哪些像素。為每個槽取最大值可以得到場景的預(yù)測分割。這種分割可以幫助模型調(diào)試和解釋。例如,如果無法用掩碼跟蹤特定車輛,表明模型沒有從場景的其他特征中區(qū)分出該對象的特征,因此沒有獨立表示其運動狀態(tài)。

對象的槽或潛在向量也可以解碼為圖像重建或軌跡預(yù)測以外的其他輸出。其他潛在下游任務(wù)可能包括視頻預(yù)測、生產(chǎn)系統(tǒng)模型或有運動條件世界模型。在端到端機器學(xué)習(xí)中,哪些輔助任務(wù)可以協(xié)同提升性能,是一個激動人心的開放問題。

3.3. 對象槽解碼分布

原始SIMONe模型采用正態(tài)分布預(yù)測的像素RGB值。(注意,在本節(jié)中,我們將RGB元組稱為正態(tài),但在現(xiàn)實中,R、G和B通道是獨立對待的。)我們發(fā)現(xiàn),在進行場景中分割時,這個分布會導(dǎo)致模型過度依賴顏色差異。這會導(dǎo)致一些失敗的案例,如無法分割車身和擋風(fēng)玻璃、無法識別出與背景顏色相似的對象等。我們猜測這是因為在兩個不同顏色的區(qū)域邊界附近,模型不確定為給定像素分配什么顏色。為了用正態(tài)分布表示這種不確定性,模型被迫將不同顏色的區(qū)域分配給不同的槽,并使用每個槽的權(quán)重給出每種顏色的可能性 。

對于我們的體系結(jié)構(gòu),我們使用多頭正態(tài)分布替換SIMONe中的正態(tài)分布,來減輕這個問題。定性的說,我們發(fā)現(xiàn)這能夠更好地反映對象運動的分割。對于每個像素和每個槽 k,解碼器輸出H個模式,其中預(yù)測平均RGB元組和邏輯單元 決定每個模式的權(quán)重。(注意,此外還有一個單獨的“全局” 回歸,它控制第k個槽對總混合分布的貢獻,如方程2所示。) 因此,每個槽的分布是:

其中正常分布的方差是一個超參數(shù)。當(dāng)時,這簡化為SIMONe中的解碼分布:

在我們的實驗中,我們使用和。

最后,模型的分割結(jié)果和軌跡預(yù)測如下圖所示:

547eb8dc-2dc5-11ee-815d-dac502259ad0.png54da9c9c-2dc5-11ee-815d-dac502259ad0.png

4. 結(jié)論

最近,以對象為中心的自我監(jiān)督表示學(xué)習(xí)方法,在具有明確定義對象的人工數(shù)據(jù)集上表現(xiàn)出了很強的性能,但在具有復(fù)雜紋理和模糊對象的復(fù)雜真實世界數(shù)據(jù)上仍然舉步維艱。在本文中,我們已展示的結(jié)果表明,通過使用相機姿態(tài)作為附加輸入,有可能在RGB駕駛視頻中獲得合理的動態(tài)、以對象中心的表示。與3D深度傳感器不同,姿態(tài)估計是自動駕駛汽車的一個普遍特征,因此我們認(rèn)為我們的方法是在自動駕駛領(lǐng)域?qū)崿F(xiàn)可擴展的、實用的,以對象中心的表示學(xué)習(xí)的一個很有前途的途徑。此外,我們的研究結(jié)果表明,預(yù)測車輛自身的未來姿態(tài)是一項協(xié)同任務(wù),它不會阻礙學(xué)習(xí)表達的質(zhì)量。這對端到端駕駛模型來說尤其令人興奮,因為它打開了駕駛性能和表示學(xué)習(xí)共同建立良性循環(huán)的可能性,同時保留了以對象為中心的表示的關(guān)鍵優(yōu)勢,如可解釋性。

我們認(rèn)為仍有可能進一步提高對象分割質(zhì)量,例如,通過擴大模型規(guī)模和采取數(shù)據(jù)增強策略(這兩點對SAVi++的性能非常重要)。我們還注意到,Waymo 公開感知數(shù)據(jù)集包含三個前向攝像頭的480,000幀圖像,對于理想的表示學(xué)習(xí)而言相比,該數(shù)據(jù)集的規(guī)模與其復(fù)雜性可能不夠大。相比之下,最近的對象場景表示transformer模型是在1000萬幀合成數(shù)據(jù)集上訓(xùn)練的。

最后,我們注意到,我們模型中的KL-發(fā)散損失鼓勵學(xué)習(xí)理順的對象潛在特征。更詳細地研究這些特征是未來工作的一個令人興奮的方向。

5. 論文中的超參數(shù)

參數(shù)
權(quán)重, β (帶路徑預(yù)報任務(wù)) 5e-7
β (無路徑預(yù)報任務(wù)) 4.5e-7
權(quán)重, 1e-4
對象槽的方差, 0.08
對象槽數(shù)量 21
對象潛在維度 32
Transformer 層數(shù) 6
Transformer 頭數(shù) 4
Transformer 特征維度 512
Transformer 前饋維度 1024
重建 MLP 層數(shù) 3
重構(gòu)MLP的隱藏維度 1536
圖像序列長度 8
圖像尺寸(高、寬) (96, 224)
每個訓(xùn)練序列解碼的像素數(shù)量,N 2016
批大小 8
學(xué)習(xí)率 1e-4



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3643

    瀏覽量

    134525
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92901
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24703

原文標(biāo)題:Wayve:從源頭講起,如何實現(xiàn)以對象為中心的自監(jiān)督感知方法?(附代碼)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    實現(xiàn)以太網(wǎng)通信硬件電路方法

    實現(xiàn)以太網(wǎng)通信硬件電路方法很多,一般情況是CPU+MAC+PHY+網(wǎng)絡(luò)變壓器+RJ45。整個硬件電路最多用5個電子器件完成。
    發(fā)表于 10-20 09:25 ?890次閱讀
    <b class='flag-5'>實現(xiàn)以</b>太網(wǎng)通信硬件電路<b class='flag-5'>方法</b>

    基于transformer和監(jiān)督學(xué)習(xí)的路面異常檢測方法分享

    鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1571次閱讀
    基于transformer和<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)的路面異常檢測<b class='flag-5'>方法</b>分享

    有誰是做認(rèn)知無線電頻譜感知方向的嗎

    本人研二,研究方向認(rèn)知無線電頻譜感知方法的研究,主要是處理數(shù)字端,有哪位童鞋跟我是同方向,一起探討探討啊
    發(fā)表于 09-11 22:13

    智能感知方案怎么幫助實現(xiàn)安全的自動駕駛?

    未來,自動駕駛將不再是科幻電影里的橋段,這是未來汽車的一個趨勢,感知是自動駕駛的重要組成部分,同時安全性至關(guān)重要。作為全球第7大汽車半導(dǎo)體供應(yīng)商,安森美半導(dǎo)體提供全面的智能感知方案,包括圖像傳感器
    發(fā)表于 07-31 07:11

    有什么方法以對USB實現(xiàn)隔離嗎?

    有什么方法以對USB實現(xiàn)隔離嗎?
    發(fā)表于 06-02 06:40

    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法

    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法.
    發(fā)表于 03-16 15:55 ?35次下載
    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜<b class='flag-5'>感知方法</b>

    智能機器人多傳感器融合感知方法

    智能機器人多傳感器融合感知方法,感興趣的小伙伴們可以瞧一瞧。
    發(fā)表于 09-20 16:10 ?19次下載

    一種基于智能終端的環(huán)境與接近度感知方法

    提出一種基于智能終端的環(huán)境與接近度感知方法。首先,基于智能終端多種內(nèi)置傳感器采集的環(huán)境數(shù)據(jù),提出一種環(huán)境感知算法,可以有效地識別不同場景切換;其次,以log-normal衰落模型得到的藍牙信號
    發(fā)表于 11-16 11:17 ?7次下載
    一種基于智能終端的環(huán)境與接近度<b class='flag-5'>感知方法</b>

    基于信道歷史狀態(tài)信息的頻譜感知方法

    針對衛(wèi)星認(rèn)知網(wǎng)絡(luò)環(huán)境中待檢測信號強度不斷變化的特點,為了突破傳統(tǒng)能量檢測的性能極限,提出一種基于信道歷史狀態(tài)信息的頻譜感知方法。首先,通過建立具有遺忘機制的信道歷史狀態(tài)判決模型實現(xiàn)對當(dāng)前時刻信道狀態(tài)
    發(fā)表于 01-15 15:33 ?0次下載
    基于信道歷史狀態(tài)信息的頻譜<b class='flag-5'>感知方法</b>

    一種監(jiān)督同變注意力機制,利用監(jiān)督方法來彌補監(jiān)督信號差異

    本文提出了一種監(jiān)督同變注意力機制(self-supervised equivariant attention mechanism,簡稱SEAM),利用監(jiān)督
    的頭像 發(fā)表于 05-12 10:16 ?7832次閱讀
    一種<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>同變注意力機制,利用<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>方法</b>來彌補<b class='flag-5'>監(jiān)督</b>信號差異

    新的工業(yè)應(yīng)用智能感知方

    推動高能效創(chuàng)新的安森美半導(dǎo)體(ON Semiconductor,美國納斯達克上市代號:ON),將于 7 月 3 日至 5 日在 2020 中國(上海)機器視覺展展示廣泛的智能圖像感知方案。
    發(fā)表于 07-03 11:40 ?975次閱讀

    基于人工智能的監(jiān)督學(xué)習(xí)詳解

    監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠很少的數(shù)據(jù)中學(xué)習(xí)知識,這樣才能識別和理解世界上更微妙、更不常見的表示形式。
    的頭像 發(fā)表于 03-30 17:09 ?5988次閱讀
    基于人工智能的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)詳解

    極目智能產(chǎn)品方案亮相上海車展 攜手地平線、楚航科技發(fā)力智能駕駛感知方

    地平線征程5的極目L2+級JMBEV融合感知方案及“雙循環(huán)”數(shù)據(jù)閉環(huán) JMBEV是極目智能推出的L2+級別智能駕駛感知方案,采用BEV感知、3D目標(biāo)跟蹤等技術(shù),通過多模態(tài)傳感器實現(xiàn)車身
    的頭像 發(fā)表于 04-26 09:38 ?1676次閱讀
    極目智能產(chǎn)品方案亮相上海車展 攜手地平線、楚航科技發(fā)力智能駕駛<b class='flag-5'>感知方</b>案

    基于純視覺的感知方法

    ? ? ?背景? 近年來,基于純視覺的感知方法由于其較高的信噪比和較低的成本,在自動駕駛領(lǐng)域占有重要地位。其中,鳥瞰圖(BEV)感知已成為主流的方法。在以視覺
    的頭像 發(fā)表于 06-15 14:20 ?1162次閱讀
    基于純視覺的<b class='flag-5'>感知方法</b>

    4分鐘了解吸頂燈具智能感知方案測試方法

    視頻版吸頂燈智能感知方案測試方法照明燈具、家電家居、安防系統(tǒng)、健康看護系統(tǒng)到商業(yè)設(shè)備,我們身邊的智能設(shè)備變得越來越聰明。在這場智能化革命中,富奧星雷達傳感器賦予了這些設(shè)備感知、檢測和
    的頭像 發(fā)表于 12-01 10:20 ?1160次閱讀
    4分鐘了解吸頂燈具智能<b class='flag-5'>感知方</b>案測試<b class='flag-5'>方法</b>
    主站蜘蛛池模板: 天天摸夜夜操| 视频h在线观看| 亚洲乱码一二三四区| 五月婷婷综合激情网| 狠狠干狠狠鲁| 久热久操| 直接看的黄色网址| 黄色免费毛片| 国产亚洲网站| 色综合天天综合网站中国| 亚洲资源在线观看| 欧洲一级鲁丝片免费| 婷婷亚洲综合五月天小说在线| 高清videosgratis欧洲69| 很黄很暴力 很污秽的小说| 99精品国产在热久久| 免费看污黄视频软件| 桃花色综合影院| 国产精品久久久久乳精品爆| 可以免费观看的黄色网址| 免费一级毛片清高播放| 中文字幕色| 欧美三级黄视频| wwww亚洲| 中文字幕在线一区| 日本a级片在线观看| 日本特黄视频| 正在播放淫亚洲| 播放一级毛片| 久久国产午夜精品理论篇小说| 中文字幕三级| 国产91色综合久久免费分享| 欧美另类69| 年轻的护士3在线观看| 亚洲欧美圣爱天天综合| 在线视频黄色| 三级黄网站| 啪啪影城| 四虎在线影院| 日韩精品在线第一页| 性欧美大战久久久久久久|