在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PowerBEV的高效新型端到端框架基于流變形的后處理方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-06-25 16:06 ? 次閱讀

摘要

準確地感知物體實例并預測它們未來的運動是自動駕駛車輛的關鍵任務,使它們能夠在復雜的城市交通中安全導航。雖然鳥瞰圖(BEV)表示在自動駕駛感知中是常見的,但它們在運動預測中的潛力尚未得到充分探索。現有的從環繞攝像頭進行BEV實例預測的方法依賴于多任務自回歸設置以及復雜的后處理,以便以時空一致的方式預測未來的實例。在本文中,我們不同于這中范例,提出了一個名為PowerBEV的高效新型端到端框架,采用了幾種旨在減少先前方法中固有冗余的設計選擇。首先,與其按自回歸方式預測未來,PowerBEV采用了由輕量級2D卷積網絡構建的并行多尺度模塊。其次,我們證明,分割和向心反向流對于預測是足夠的,通過消除冗余輸出形式簡化了先前的多任務目標。基于此輸出表示,我們提出了一種簡單的基于流變形的后處理方法,可在時間上產生更穩定的實例關聯。通過這種輕量化但強大的設計,PowerBEV在NuScenes數據集上勝過了最先進的方法,并為BEV實例預測提供了一種替代范例。

主要貢獻

我們提出了PowerBEV,一個新穎而優雅的基于視覺的端到端框架,它只由2D卷積層組成,用于在BEV中執行多個對象的感知和預測。

我們證明,由于冗余表示引起的過度監督會影響模型的預測能力。相比之下,我們的方法通過簡單地預測分割和向心反向流來實現語義和實例級別的代理預測。

我們提出的基于向心反向流的提議分配優于以前的前向流結合傳統的匈牙利匹配算法

主要方法

我們的方法的框架如圖1所示。它主要由三個部分組成:感知模塊、預測模塊和后處理階段。感知模塊將M個多視角相機圖像作為個時間戳的輸入,并將他們轉換為個BEV特征圖。然后,預測模塊融合提取的BEV特征中包含的時空信息,并同時預測一系列分割地圖和向心反向流,用于未來幀。最后,通過基于變形的后處理。從預測的分割和流中恢復未來的實例預測。

0b1abd98-1151-11ee-962d-dac502259ad0.png圖1:PowerBEV的框架

1、基于LSS的感知模塊

為了獲取用于預測的視覺特征,我們遵循之前的工作,并在LSS的基礎上建立起從環繞攝像機中提取BEV特征網格。對于每個時間t的每個相機圖像,我們應用共享的EfficientNet網絡來提取透視特征,其中我們將的前個通道指定為上下文特征,后面的個通道表示分類深度分布。通過外積構造一個三維特征張量。

0b55e4b8-1151-11ee-962d-dac502259ad0.png

其中,根據估計的深度分布置信度將上下文特征提升到不同的深度中。然后,每個時間戳的每個相機特征分布映射基于對應相機的已知內部參數和外部參數被投影到以車輛為中心的坐標系中。隨后,它們沿著高度維度加權,以獲得時間戳t處的全局BEV狀態,其中是狀態通道數量,(H,W)是BEV狀態地圖的網格大小。最后,所有的BEV狀態合并到當前幀中,并像FIERY一樣堆疊,因此這追蹤表示是獨立于自車位置的當前全局動態。

2、多尺度預測模塊

0b68b408-1151-11ee-962d-dac502259ad0.png圖2:多尺度預測模塊的結構

獲得過去環境的簡潔表示S后,我們使用一個多尺度U-Net類編碼器解碼器架構,將觀察到的BEV特征圖作為輸入,并預測未來的分割地圖和向心反向流場,如圖2所示。為了僅使用2D卷積進行時空特征處理,我們將時間和特征維度折疊成一個單一的維度,從而得到輸入張量。編碼器首先逐步在空間上對進行下采樣,生成多尺度BEV特征,其中。在一個中間的預測器階段,將特征從映射到,獲取。最后,解碼器鏡像編碼器,在原始尺度上重建出未來的BEV特征。每個分支分別被監督以預測未來的分割地圖或向心反向流場。考慮到任務和監督的差異,我們為每個分支使用相同的架構但不共享權重。與以前基于空間LSTM或空間GRU的工作相比,我們的架構只利用2D卷積,在解決長程時間依賴性方面大大緩解了空間RNN的限制。

3、多任務的設置

現有的方法遵循自下而上的原則,為每個幀生成實例分割,然后根據前向流使用匈牙利匹配算法在幀之間關聯實例。因此,需要四個不同的頭部:語義分割、中心性、未來前向流和BEV中的每像素向心偏移。這導致由于多任務訓練而產生模型冗余和不穩定性。相比之下,我們首先發現,流和向心偏移都是實例掩模內的回歸任務,并且流可以理解為運動偏移量。此外,這兩個量與中心性在兩個階段中組合:(1)向心偏移將像素分組到每個幀中預測的實例中心,以將像素分配給實例ID;(2)流用于匹配兩個連續幀中的中心以進行實例ID關聯。基于以上分析,使用統一表示形式直觀地解決這兩個任務。為此,我們提出了向心反向流場,它是從時間t處的每個前景像素到時間t?1處關聯實例標識的對象中心的位移向量。這將像素到像素的反向流向量和向心偏移向量統一為單一表示形式。使用我們提出的流,可以直接將每個占用的像素關聯到上一幀中的實例ID。這消除了將像素分配給實例的額外聚類步驟,將先前工作中使用的兩階段后處理簡化為單階段關聯任務。此外,我們發現語義分割地圖和中心性的預測非常相似,因為中心基本對應于語義實例的中心位置。因此,我們建議直接從預測的分割地圖中提取局部最大值來推斷對象中心。這消除了分別預測中心的需要,如圖3所示。

0b93aff0-1151-11ee-962d-dac502259ad0.png

圖3:多任務設置

總的來說,我們的網絡僅僅產生兩個輸出,語義分割和向心反向流。我們使用top-k,k=25%的交叉熵作為語義分割損失函數,平滑的L1距離作為流動損失函數。總的損失函數為。

0bc88c34-1151-11ee-962d-dac502259ad0.png

,和使用不確定性權重自動的更新。

4、實例關聯

0befd046-1151-11ee-962d-dac502259ad0.png圖4:實例關聯

對于實例預測,我們需要隨著時間推移將未來的實例相互關聯。現有的方法使用前向流將實例中心投影到下一幀,然后使用匈牙利匹配將最近的代理中心進行匹配,如圖4.a所示。這種方法執行實例級別的關聯,其中實例身份由其中心表示。因此,僅使用位于對象中心上的流向量用于運動預測。這有兩個缺點:首先,沒有考慮對象旋轉;其次,單個位移向量比覆蓋整個實例的多個位移向量更容易出錯。在實踐中,這可能導致重疊的預測實例,導致錯誤的ID分配。這在長期預測范圍內的近距離物體上尤為明顯。利用我們提出的向心反向流,我們進一步提出了基于變形的像素級關聯來解決上述問題。我們的關聯方法的說明如圖4.b所示。對于每個前景網格單元,該操作將實例ID直接從前一個幀中流向量目標處的像素傳播到當前幀。使用此方法,每個像素的實例ID都被單獨分配,從而產生像素級關聯。與實例級別關聯相比,我們的方法對嚴重的流預測錯誤更具有容忍度,因為真實中心周圍的相鄰網格單元傾向于共享相同的身份,而錯誤往往發生在單個外圍像素上。此外,通過使用向后流變形,可以將多個未來位置與前一幀中的一個像素關聯起來。這對于多模式未來預測是有益的。正如所述,向后關聯需要在前一幀中的實例ID。特殊情況是第一個幀(t = 0)的實例分割生成,其沒有其前一幀(t = -1)的實例信息可用。因此,僅針對時間戳t = 0,我們通過將像素分組到過去實例中心來分配實例ID。

主要結果

我們首先將我們的方法與其他baseline相比較,結果如表1所示。我們的方法在感知范圍設置下的評估指標IoU(Intersection-over-Union)和VPQ(video panoptic quality)均取得了顯著的改進。在長距離設置中,PowerBEV的表現優于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,盡管使用較低的輸入圖像分辨率和更少的參數,PowerBEV在所有指標上的表現都優于BEVerse。與其他引入模型隨機過程的方法相比,PowerBEV是一種確定性方法,能夠實現準確的預測。這也展示了反向流在捕捉多模態未來方面的能力。

0c17f01c-1151-11ee-962d-dac502259ad0.png圖5:定量評估解決

下圖展示了我們方法的定性結果。我們展示了在三種典型駕駛場景中(城市道路上交通密集的情況、停車場中靜態車輛眾多的情況和雨天駕駛場景)與FIERY的比較。我們的方法為最常見的交通密集場景提供了更精確、更可靠的軌跡預測,這在第一個例子中變得特別明顯,其中車輛轉向自車左側的側街。而FIERY只對車輛位置作出了一些模糊的猜測,并且難以處理它們的動態特征,與之相反,我們的方法提供了更好地匹配真實車輛形狀以及未來可能軌跡的清晰物體邊界。此外,從第二個例子的比較中可以看出,我們的框架可以檢測到位于較遠距離的車輛,而FIERY則失敗了。此外,我們的方法還可以檢測到在雨天場景中被墻壁遮擋的卡車,即使對于人眼來說也很難發現。

0c2fe5be-1151-11ee-962d-dac502259ad0.png圖6:可視化對比結果
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模塊
    +關注

    關注

    7

    文章

    2707

    瀏覽量

    47476
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17489
  • 自動駕駛
    +關注

    關注

    784

    文章

    13812

    瀏覽量

    166461

原文標題:IJCAI2023|PowerBEV:一個強大且輕量的環視圖像BEV實例預測框架

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TCP等效噪聲模型及擁塞控制方法研究

    TCP等效噪聲模型及擁塞控制方法研究:針對傳統TCP擁塞控制協議在有線/無線混合網絡中存在的問題,采用通信系統加性噪聲分析方法和信道容
    發表于 10-20 17:49 ?7次下載

    物聯網解決方案

    英特爾打造核心技術物聯網解決方案
    發表于 12-28 18:12 ?0次下載

    SDN中的時延

    隨著大規模SDN的不斷發展,用來管理和衡量網絡性能的指標也越來越重要。時延就是其中重要的部分,針對該指標已經提出了很多計算的方法,主要分為主動探測和被動探測,但是各有優缺點。因此
    發表于 12-06 15:32 ?0次下載
    SDN中的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>時延

    的自動駕駛研發系統介紹

    Nvidia是比較早做控制車輛工作的公司,其方法訓練CNN模型完成從單個前向攝像頭的圖像像素車輛控制的映射。 其系統自動學習一些
    的頭像 發表于 07-13 09:30 ?4943次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自動駕駛研發系統介紹

    基于深度神經網絡的圖像壓縮方法

    人工設計的算法分別進行優化近年來,基于深度神經網絡的圖像壓縮方法在圖像壓縮中取得了豐碩的成果,相比傳統方法
    發表于 04-08 09:30 ?16次下載
    基于深度神經網絡的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>圖像壓縮<b class='flag-5'>方法</b>

    基于幀級特征的說話人識別方法

    現有的說話人識別方法仍存在許多不足。基于話語級特征輸入的方法由于語音長短不一致需要將輸入處理為同等大小,而特征訓練加后驗分類的兩階段
    發表于 05-08 16:57 ?4次下載

    的IO鏈接解決方案

    的IO鏈接解決方案
    發表于 05-10 10:43 ?1次下載
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的IO鏈接解決方案

    采用帶有transformer的框架獲取對應集合結果

    最近將學習的方式引入點云配準中取得了成功,但許多工作都側重于學習特征描述符,并依賴于最近鄰特征匹配和通過RANSAC進行離群值過濾,以獲得姿態估計的最終對應集合。在這項工作中,我們推測注意機制可以取代顯式特征匹配和RANSAC的作用,從而提出一個
    的頭像 發表于 10-09 14:37 ?658次閱讀
    采用帶有transformer的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>框架</b>獲取對應集合結果

    使用FastDeploy在英特爾CPU和獨立顯卡上端高效部署AI模型

    在產業實踐中,我們發現不僅 AI 推理硬件和對應推理引擎(例如:OpenVINO Runtime)對于的性能影響大,數據預處理后處理
    的頭像 發表于 12-20 11:27 ?3200次閱讀

    新型弱監督篇幅級手寫中文文本識別方法PageNet

    PageNet與現有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數據集上的識別指標對比如下表所示。可以看出,在MTHv2數據集上,PageNet取得了
    的頭像 發表于 01-12 14:12 ?2114次閱讀

    構建的流程體系

    所謂流程的架構體系,就是一套有層次的流程管理體系。這種層次體現在由上至下、由整體
    的頭像 發表于 06-01 15:09 ?2034次閱讀
    構建<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的流程體系

    PVT++:通用的預測性跟蹤框架

    本文提出通用的預測性跟蹤框架 PVT++,旨在解決目標跟蹤的部署時的延遲問題。多種預訓練跟蹤器在 PVT++ 框架下訓練后“在線”跟蹤效果大幅提高,某些情況下甚至取得了與“離線”
    的頭像 發表于 07-30 22:30 ?1952次閱讀
    PVT++:通用的<b class='flag-5'>端</b>對<b class='flag-5'>端</b>預測性跟蹤<b class='flag-5'>框架</b>

    語音識別技術:的挑戰與解決方案

    一、引言 隨著人工智能技術的不斷發展,語音識別技術得到了越來越廣泛的應用。語音識別技術是近年來備受關注的一種新型語音識別技術,它能夠直接將語音轉換成文本,省略了傳統的語音特征提取
    的頭像 發表于 10-18 17:06 ?1015次閱讀

    測試不正常如何處理

    測試(End-to-End Testing)是一種測試方法,它模擬用戶與系統的實際交互,從用戶界面開始,通過應用程序的所有層,直到數據庫。這種測試的目的是確保系統的各個組件在實際
    的頭像 發表于 09-20 10:25 ?365次閱讀

    測試用例怎么寫

    測試方法,旨在驗證整個應用程序從前端后端的流程是否能夠按照預期工作。它涉及多個系統組件和接口的交互,確保業務流程的完整性和正確性。 二、編寫
    的頭像 發表于 09-20 10:29 ?455次閱讀
    主站蜘蛛池模板: 欧美一级片手机在线观看| 亚洲狠狠婷婷综合久久久久图片| 在线亚洲一区| 网站色| 狠狠色依依成人婷婷九月| 涩涩涩综合在线亚洲第一| 国产午夜精品理论片在线| 免费亚洲一区| 亚洲国产色婷婷精品综合在线观看| 免费人成动漫在线播放r18| 婷婷在线观看香蕉五月天| 一区二区三区在线观看视频| 日韩久久精品视频| 久久伦子沙发| 午夜影院免费视频| 中文字幕一区在线观看| 日本黄色片在线观看| 国产va在线观看| 人人干在线| 中文字幕在线乱码免费毛片| 四虎国产精品成人永久免费影视| 操女网站| 国产精品1区2区3区在线播放| 亚洲视频在线免费看| 伊人网站在线| 欧美精品二区| 一级特黄a 大片免费| 大黄网站色多多| 四虎永久免费网站入口2020| 黄色一级毛片在线观看| 色一乱一伦一区一直爽| 97狠狠操| 成人永久免费视频| 精品福利| 曰本福利写真片视频在线| 你懂的在线视频观看| 免费人成在线观看视频播放| 欧美一区二区不卡视频| 日本精品一卡二卡≡卡四卡| 77788色淫网站免费观看| 性过程很黄的小说男男|