隨著數(shù)據(jù)采集設(shè)備的優(yōu)化升級,自動駕駛數(shù)據(jù)集也在不斷升級迭代。國內(nèi)外各大自動駕駛公司、研究所都先后推出自動駕駛數(shù)據(jù)集,為未來自動駕駛領(lǐng)域的技術(shù)發(fā)展提供重要研究材料。 《自動駕駛開源數(shù)據(jù)體系:現(xiàn)狀與未來》一文系統(tǒng)性地梳理自動駕駛開源數(shù)據(jù)集,對于助推產(chǎn)業(yè)生態(tài)良性循環(huán)有著重要意義。該文章是由上海人工智能實驗室聯(lián)合上海交大、復旦大學、百度、比亞迪、蔚來等多個單位,發(fā)布的自動駕駛開源數(shù)據(jù)集綜述。該綜述首次系統(tǒng)性梳理了國內(nèi)外七十余種開源自動駕駛數(shù)據(jù)集,對如何構(gòu)建高質(zhì)量數(shù)據(jù)集、數(shù)據(jù)在算法閉環(huán)體系中發(fā)揮的核心作用、如何利用生成式大模型規(guī)模化生產(chǎn)數(shù)據(jù)等進行了總結(jié)。在此基礎(chǔ)上,對未來第三代自動駕駛數(shù)據(jù)集所應具有的特征、數(shù)據(jù)規(guī)模、需要解決的關(guān)鍵科學和技術(shù)問題展開深入分析與討論。
概述
自動駕駛作為人工智能重要應用領(lǐng)域之一,有望重塑現(xiàn)有的交通和運輸模式,極大提升交通效率和安全性,對未來城市和社會發(fā)展產(chǎn)生深遠影響。目前,國內(nèi)的智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)已經(jīng)邁入商業(yè)化的試水和起步階段。道路測試和示范應用場景趨于成熟,自動駕駛功能技術(shù)加速迭代,車聯(lián)網(wǎng)應用場景日益豐富,各層面相關(guān)法規(guī)政策加速出臺,共同推動市場進入高速發(fā)展期。 一方面,自動駕駛技術(shù)需要大量數(shù)據(jù)來訓練算法模型,以識別和理解道路環(huán)境,從而做出正確的決策和行動,實現(xiàn)準確、穩(wěn)定和安全的駕駛體驗,數(shù)據(jù)的建設(shè)對于自動駕駛技術(shù)的發(fā)展至關(guān)重要。另一方面,自然語言處理和通用視覺領(lǐng)域大模型的出現(xiàn),更加印證了海量高質(zhì)量數(shù)據(jù)的重要性,給予自動駕駛的數(shù)據(jù)集建設(shè)以啟發(fā)!
綜述文章架構(gòu)
自動駕駛數(shù)據(jù)集
該綜述把目前開源的近百種數(shù)據(jù)集分為兩代:第一代數(shù)據(jù)集以 KITTI為標志,該數(shù)據(jù)集于2012年提出,輸入傳感模態(tài)由單目攝像頭與激光雷達構(gòu)成,并提出了一系列綜合感知任務(wù)。第二代數(shù)據(jù)集以 nuScenes 及 Waymo 數(shù)據(jù)集為代表,傳感模態(tài)復雜度變高,環(huán)視相機、激光雷達、定位信息以及高精地圖成為常見組成部分,下游任務(wù)面向感知、建圖、預測與路徑規(guī)劃綜合任務(wù)。
傳感器模態(tài)復雜度逐漸提高:環(huán)視相機,激光雷達,高精地圖,超聲波雷達傳感器,GPS、IMU、HD Map等。
數(shù)據(jù)集規(guī)模與多樣性日益增長:在數(shù)據(jù)豐富度方面,主流自動駕駛數(shù)據(jù)集的采集時長由最初的10小時左右逐漸提升至100小時,隨著自動標注技術(shù)及標注工具的演進,近些年也出現(xiàn)了超過 1000 小時的數(shù)據(jù)集。駕駛場景的多樣性也是自動駕駛系統(tǒng)表現(xiàn)的另一關(guān)鍵因素。為了提高算法在特定場景下的表現(xiàn)能力,部分數(shù)據(jù)集分別在多個大洲多個城市進行采集。
數(shù)據(jù)集任務(wù)從感知延伸至預測與規(guī)劃:2016 年推出的 Cityscapes 與 Mapillary 等數(shù)據(jù)集下游任務(wù)聚焦于動態(tài)物體檢測。2019 年推出的 SemanticKITTI 、DrivingStereo等數(shù)據(jù)集引入語義分割、深度估計、光流估計等任務(wù)。在傳統(tǒng)預測與規(guī)劃模塊一般應用數(shù)值計算、優(yōu)化、搜索等方法求解。2019 年前后提出的 nuScenes、Waymo 、Argoverse V2 等數(shù)據(jù)集,不僅包括感知任務(wù)還涵蓋預測與規(guī)劃任務(wù),實現(xiàn)了在同一數(shù)據(jù)集上進行多種任務(wù)研究,同時引領(lǐng)社區(qū)在傳統(tǒng)多個模塊范式下端到端自動駕駛研究的潮流。
自動駕駛開源數(shù)據(jù)集影響力估計
數(shù)據(jù)算法閉環(huán)體系
模塊化自動駕駛系統(tǒng)包括感知、決策、規(guī)劃、控制等組件,其中大部分功能是通過數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)的。對于這些模塊來說,海量和高質(zhì)量的數(shù)據(jù)是確保模塊性能的必要條件。 首先,海量數(shù)據(jù)的引入對于解決現(xiàn)存自動駕駛系統(tǒng)中的各種問題都很有必要。自動駕駛工程中一直存在的問題是長尾問題。其產(chǎn)生原因在于訓練模型的數(shù)據(jù)量不足而導致存在少量情況未被模型學習,而在模型推理階段,模型并不能對這些邊緣場景給出正確的結(jié)果。另外,對于基于規(guī)則的模塊,現(xiàn)有的方式是通過人工設(shè)計各種規(guī)則來使模塊輸出符合人為設(shè)計邏輯的結(jié)果。這個方法耗時耗力,并且難以覆蓋所有情況,有可能導致自動駕駛系統(tǒng)在某些未見場景下失效。而使用數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)代替這些模塊是一個可能的解決方案。 同時,在神經(jīng)網(wǎng)絡(luò)學習過程中,數(shù)據(jù)噪聲的引入會不可避免地對優(yōu)化過程產(chǎn)生負面影響,并降低模型性能。數(shù)據(jù)質(zhì)量不僅包括傳感器數(shù)據(jù)的分辨率和同步性等,還包括標簽的準確性。在這兩個方面中,任意一個方面存在質(zhì)量問題都直接影響著自動駕駛系統(tǒng)的性能和安全性。 綜上,海量和高質(zhì)量的數(shù)據(jù)成為構(gòu)建自動駕駛系統(tǒng)必不可少的一個環(huán)節(jié)。
大模型時代下的新一代自動駕駛數(shù)據(jù)集
當前基礎(chǔ)大模型在自然語言處理、計算機視覺等領(lǐng)域取得了舉世矚目的成果,但目前市面上還沒有面向自動駕駛垂直領(lǐng)域的大模型。以其他領(lǐng)域的大模型作為參照,新一代數(shù)據(jù)集至少應將數(shù)據(jù)量提升至與其他領(lǐng)域相近才能夠賦能自動駕駛大模型。 在保證數(shù)據(jù)數(shù)量的前提下,場景豐富度對算法性能更為重要。自動駕駛車輛在真實世界中會不可避免地遇到訓練數(shù)據(jù)之外的場景大規(guī)模地應用自動駕駛技術(shù)必然要求模型能夠在罕見場景中做出正確行為,避免發(fā)生危險或功能失效的情況。對于絕大多數(shù)交通場景來說,并不需要十分大量的數(shù)據(jù)就能夠覆蓋,而更需要關(guān)注的是長尾場景,由于某些交通場景十分罕見,如撞車等,數(shù)據(jù)的缺失會對自動駕駛系統(tǒng)的性能影響巨大。
第一、二代自動駕駛數(shù)據(jù)集已經(jīng)不能夠繼續(xù)滿足自動駕駛系統(tǒng)的發(fā)展需求,新一代數(shù)據(jù)集的建設(shè)亟待提上日程。在大模型時代,大數(shù)據(jù)成為新一代數(shù)據(jù)集不可缺少的一個特點。同時,模塊化設(shè)計的自動駕駛系統(tǒng)在落地過程遇到迭代成本高、性能上界受限等問題,端到端自動駕駛架構(gòu)逐步受到業(yè)界的青睞。除此之外,多模態(tài)傳感器、高質(zhì)量標注、模型邏輯推理能力等方面也需要得到重視?;诖耍摼C述總結(jié)歸納了新一代數(shù)據(jù)集的發(fā)展目標:面向多模態(tài)、保質(zhì)保量;面向端到端、決策導向;面向智能化、邏輯推理。
大模型時代下的自動駕駛數(shù)據(jù)集展望
結(jié)論
該綜述全面回顧了自動駕駛公開數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)。針對數(shù)據(jù)算法閉環(huán)體系,結(jié)合當前大模型發(fā)展趨勢,提出了下一代自動駕駛數(shù)據(jù)集的愿景與規(guī)劃。該綜述系統(tǒng)性地總結(jié)了自動駕駛發(fā)展歷程中所使用的數(shù)據(jù)集,并展示了通過挑戰(zhàn)賽與榜單促進社區(qū)發(fā)展的重要性;概括性地分析了自動駕駛數(shù)據(jù)算法閉環(huán)體系,并總結(jié)其中各個重要環(huán)節(jié)的作用,最后通過應用案例展現(xiàn)對數(shù)據(jù)算法閉環(huán)體系的使用方法。
-
算法
+關(guān)注
關(guān)注
23文章
4615瀏覽量
92962 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24716 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13835瀏覽量
166516
原文標題:自動駕駛公開數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)
文章出處:【微信號:智能汽車電子與軟件,微信公眾號:智能汽車電子與軟件】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論