1.1、 自動駕駛算法是感知、預測、規劃、控制的結合體
自動駕駛算法反應了工程師們根據人的思維模式,對自動駕駛所需處理過程的 思考。通常包含感知、預測、規劃模塊,同時輔助一些地圖、定位等模塊,實現自 動駕駛功能的落地。
1.1.1、 感知:感知外部世界
感知模塊主要解決四類任務:(1)檢測:找出物體在環境中的位置;(2)分類: 明確對象是什么,如分辨不同類別交通標志;(3)跟蹤:隨著時間的推移觀察移動 物體,通常采用跨幀追蹤對象(將不同幀中檢測到的對象進行匹配)、BEV 加入時序 信息等實現;(4)語義分割:將圖像中的每個像素與語義類別匹配,如道路、天空、 汽車等,用于盡可能詳細了解環境。 以 Apollo 感知算法框架為例,其算法包含預處理、神經網絡模型、后處理等模 塊。首先圖像預處理主要是對圖像進行調整、畸變校正等,使之更符合機器學習的 要求。其次分別對紅綠燈、車道線、障礙物等特征進行檢測,其中紅綠燈通過檢測 邊框、顏色等進行進一步的識別;障礙物則經過 2D 到 3D 的轉換,得出真實的信息 坐標,再融合車道線檢測信息、外部傳感器信息等得出真實世界的障礙物信息。該 部分通常采用全卷積神經網絡或者 YOLO 等算法實現。
1.1.2、 預測:理解外部環境和當前狀態
預測模塊實際上是算法對外部環境和自車狀態的理解。預測模塊首先收集感知 模塊輸入的車道線、障礙物、紅綠燈、地圖、定位等信息對主車的狀況進行判斷。 其次場景感知模塊對外部障礙物的優先級、路權等外部環境對主車的影響進行感知。 評估器則會根據場景信息和障礙物信息判斷出障礙物的軌跡或意圖。預測器則根據 短期的預測軌跡和意圖判斷障礙物等外部環境相對長期的軌跡。這將為未來汽車的 規劃提供重要的參考。算法層面通常以 RNN 為主。
1.1.3、 規劃:思考如何行動
規劃指找到合理路徑來到達目的地。規劃通常分為全局路徑規劃、行為規劃與 運動規劃幾個部分。其中,全局路徑規劃指智能汽車依靠地圖規劃出理想狀態下到 達目的地的路徑。行為規劃則是主車在實際行駛的過程中,面臨實時的交通環境, 做出的各類駕駛行為,如跟車、換道、避讓等。運動規劃生成與駕駛行為對應的駕 駛軌跡,包含路徑規劃和速度規劃。最后再采用一些優化方式讓變道加速等行為變 得平順以滿足舒適性要求。算法層面,通常采用基于規則的規劃決策算法,前沿的 玩家也開始引入機器學習等方式,以提升決策效能。
1.2、 數據:算法的養料,現實與虛擬的交織
算法、算力和數據是人工智能的三大要素,數據在模型訓練中擁有不可忽視的 影響。一方面,Transformer 等大模型在大體量數據集訓練下才能表現更佳的特性帶 來其對訓練端數據的要求激增,特斯拉在 2022 年 AI DAY 上曾表示,訓練其占用網 絡采用了 14 億幀圖像數據。另一方面,由于自動駕駛面臨的場景紛繁復雜,諸多長 尾問題需要在現實或虛擬場景中獲取。因此數據閉環在自動駕駛領域彌足重要。毫 末智行將數據作為“自動駕駛能力函數”的自變量,認為是決定能力發展的關鍵, Momenta 也曾表示,L4 要實現規模化,至少要做到人類司機的安全水平,最好比人 類司機水平高一個數量級,因此需要至少千億公里的測試,解決百萬長尾問題。
數據挖掘和針對性的訓練能顯著減少 Corner Case。以特斯拉為例,在面臨一個 看起來像臨時停車但實際上是永久停車的場景時,最初算法會將其判定為臨時停車。 當特斯拉通過數據挖掘在訓練集中增加了 1.4 萬個類似場景的視頻并訓練模型后,神 經網絡便理解了這輛車里面沒有司機,將其判別為永久停車。
2、 大模型橫空出世,自動駕駛奇點來臨
早期自動駕駛方案采用激光雷達+高精度地圖為主。早期市場以傳統計算機視覺 和專家系統為基礎構建輔助駕駛功能,隨后人工智能的蓬勃發展讓深度學習在自動 駕駛領域被廣泛使用,以 waymo 為代表的自動駕駛先驅玩家開創了激光雷達+高精 度地圖的感知范式,Cruise、百度等巨頭紛紛效仿。該方案中,對道路結構、車道線 等靜態環境元素的感知強依賴高精度地圖,而實時的動靜態障礙物信息則強依賴激 光雷達。高精地圖成為一項“基礎設施”,將很多在線難以解決的問題提前存儲到地 圖數據中,行車時作為一項重要的感知數據來源,減輕傳感器和控制器的壓力。由 于該方案只能在有圖地區行駛,也被一些人形象的稱為“有軌電車”。
高昂的單車成本和高精度地圖成為自動駕駛大規模推廣瓶頸。Robotaxi 成本高 昂(Yole 統計早期 Waymo 為代表的的自動駕駛汽車改裝成本約為 20 萬美元),高精 度地圖采集制作以及合規要求繁雜(量產落地過程中,高精度地圖面臨:采集成本 高;人工修圖制圖費時費力;地圖鮮度不足;國內法規嚴格等困難),帶來該方案的 泛化性較差。經過數十年的發展,Robotaxi 的使用范圍仍被限制在特定區域,使用 對象也僅局限在商用車領域。市場亟待出現一種單車性能強大、成本低廉的自動駕 駛解決方案。
2.1、 BEV+Transformer 橫空出世,大模型推動自動駕駛邁向普及
2021 年特斯拉推出 BEV+transformer、重感知輕地圖的自動駕駛解決方案,開啟 了自動駕駛行業新的篇章。
2.1.1、 BEV 感知助力成為感知外部世界標準范式
BEV 全稱為 Bird’s Eye-View(鳥瞰圖),即通過神經網絡將各個攝像頭和傳感器 獲取的信息進行融合,生成基于俯視的“上帝視角”的鳥瞰圖,同時加入時序信息, 動態的對周邊環境進行感知輸出,便于后續預測規劃模塊使用。正如人類一樣,駕 駛行為需要將各處觀察到的信息綜合到統一的空間中,來判別什么地方是可以行駛 的區域。究其原因,駕駛行為是在 3D 空間中的行為,而鳥瞰圖則是將 2D 的透視空 間圖像轉換為 3D 空間,不存在距離尺度問題和遮擋問題,使得算法可以直觀的判斷 車輛在空間中的位置以及與其他障礙物之間的關系。
2.1.2、 Transformer 大模型為構建 BEV 空間提供最優解
2021 年特斯拉在 AI Day 上第一次將 BEV+transformer 的算法形式引入到自動 駕駛,開啟了自動駕駛的嶄新時代。首先 BEV 空間的構建,實際上就是尋找一種恰 當的方式,將多個 2D 的圖像和傳感器信息綜合轉化成為一個 3D 的向量空間。經過 多次嘗試,特斯拉最終引入了 Transformer 大模型來實現這一轉換。 Transformer 大模型是近年人工智能領域的熱門算法,其主要通過注意力機制來 分析關注元素之間的關系進而理解外部世界。早年被應用于自然語言處理領域,后 續延展到計算機視覺等多個方向。算法的優勢顯著:
具有更好的全局信息感知能力:Transformer 模型更關注圖像特征之間的關 系,因此會跟多關注整個圖像的信息,卷積神經網絡更多關注固定大小區 域的局部信息,因此 Transformer 在面對圖像中長程依賴性的問題擁有更好 的表現。
天花板高企適用于大規模數據訓練場景:在圖像識別能力方面,Transformer 擁有更高的上限,隨著訓練數據量的增長,傳統 CNN 模型識別能力呈現飽 和態勢,而 Transformer 則在數據量越大的情況下擁有更好的表現。而自動 駕駛洽洽為面向海量的數據場景,要求有足夠好的精度的場景。
擁有多模態感知能力:Transformer 可實現多模態數據的處理,應對圖像分 類、目標檢測、圖像分割功能,并實現對 3D 點云、圖像等數據的融合處理。
靈活、較好的泛化性能:Transformer 可適用于不同大小的輸入圖像,同時 外部環境包含擾動的情況下仍能保持較好的檢測性能。
但 CNN 網絡在提取底層特征和視覺結構方面有比較大的優勢,而在高層級的視 覺語義理解方面,需要判別這些特征和結構之間的如何關聯而形成一個整體的物體, 采用 Transformer 更加自然和有效。同時 CNN 也擁有更好的效率,可以采用更低的 算力實現效果。因此業界通常會將 CNN 和 Transformer 結合來進行物體識別。
2.1.3、 特斯拉引領打開自動駕駛天花板
特斯拉的自動駕駛算法結構中,首先將攝像頭信息無損采集,送入卷積神經網 絡 Regnet 來提取不同尺度的圖像特征,接著使用 BiFPN 進行特征融合,然后將這些 特征送入 Transformer 模塊,利用 Transformer 中的多頭注意力機制來實現 2D 圖像特 征到三維向量空間的轉換和多攝像頭特征系信息的融合,之后接入不同的“頭”如 交通標志檢測、障礙物檢測等,來實現不同任務的處落地,形成一套優雅的,可完 美實現數據驅動的感知算法。由于不同的“頭”之間采用了共享的特征提取網絡, 因此被特斯拉起名為“九頭蛇”算法架構。
特斯拉的 BEV+Transformer 算法中兩個環節尤為關鍵:
(1)2D 圖像到 3D 空間的轉換以及圖像融合: 在 2D 圖像到 3D 向量空間轉換的環節,特斯拉在行業內首次引入了 Transformer。 具體而言,先構建一個想要輸出的三維的柵格空間,并對其進行位置編碼成為查詢 向量(Query),然后將每個圖像和自己的特征輸出相應的查詢鍵碼(Key)和值(Value), 最終輸入到注意力機制中輸出想要的結果。類似于每個圖像中的特征都廣播自己是 什么物體的一部分,而每個輸出空間的位置像素像拼圖一樣,尋找對應的特征,最 終構建出希望輸出的向量空間。(Query、Key、Value 分別為 Transformer 算法中的參 數,通過將外部世界轉化為參數而實現信息處理和任務輸出)
(2)加入時序信息,讓算法擁有“記憶”: 為了讓自動駕駛算法擁有類似一段時間內“記憶”的能力,特斯拉在感知網絡 架構中加入了時空序列特征層。通過引入慣性導航傳感器獲取的包含速度和加速度 等自車運動的信息,算法模型可獲取時間和空間的記憶能力。具體而言,特斯拉給 算法加入特征隊列模塊(Feature Queue),他會緩存一些特征值(包含歷史幀的 BEV 特征、慣導傳感器信息等),便于了解車輛行動,這個序列包含時間和空間記憶。然 后引入視頻模塊(Video Module)使用空間循環神經網絡(Spatial RNN)/transformer 等算法將前述緩存的特征進行融合,關聯前后時刻信息,使得模型具有記憶能力, 讓自動駕駛汽車將同時能夠記住上一段時間和上一段位置的檢測信息。
2.1.4、 BEV+Transformer 大模型提供遠強于傳統自動駕駛算法的感知能力
(1)改善 2D-3D 空間轉換過程中深度預測難點,感知性能大幅提升
引入 BEV+Transformer 后,模型對于 2D 空間向 3D 空間轉換的精度大幅提高。 構建 BEV 模型一大重要任務是實現 2D 圖片到 3D 空間的轉換,通常業內有四大類 方式實現 2D-3D 視角轉換:早期通常以基于相機內外參數(焦距、光芯、俯仰角、 偏航角和地面高度)的幾何變換的 IPM(逆透視變換)實現,由于該方式基于地面 純平、俯仰角一定的假設,約束條件實現難度高;后續英偉達推出 BEV 行業的開山 之作LSS算法,但由于其計算量龐大以及精度仍然有限,難以支撐BEV的真正落地; 其后學界業界探索了眾多方案,包含基于神經網絡,通過監督學習數據驅動實現 BEV 空間構建等方式,但深度估計的精度均不盡人意。2021 年,特斯拉首次將 Transformer 應用于 BEV 空間的構建,在多攝像頭視角下,相比傳統感知方式,大幅提升了感知 精度,該方案推出后也迅速被業界廣泛追捧。
(2)完美實現多攝像頭、多傳感器的信息融合,極大方便后續規控任務
BEV+Transformer 實際上引入“特征級融合”(中融合)方式。通常自動駕駛汽 車擁有 6-8 個攝像頭以及其他多種傳感器,在感知過程中,需要將各類傳感器的信息 進行融合。傳感器融合大體可分為幾大類:
數據級融合(前融合):直接將傳感器采集的數據如圖像和點云融合。該方 案優勢在于數據損失少,融合效果好,但時間同步、空間同步要求達到像 素級別,難度較高,需要對每個像素計算,對算力消耗大,目前少有使用。
目標級融合(后融合):將每個傳感器采集信息并處理后的目標進行融合。 該方案是此前自動駕駛主流采用的方案,被廣泛應用于攝像頭之間、不同 傳感器之間的信息融合。優勢在于算法簡單、解耦性好即插即用。但也存 在致命問題,由于融合前的處理損失了大量關鍵信息,影響感知精度,融 合結果容易沖突或錯誤。此外后融合中的融合算法仍然基于規則,無法進 行數據驅動,存在局限性。
特征級融合(中融合):則將原始傳感器采集的數據經過特征提取后再將特 征向量進行融合。該方案的優勢在于,數據損失少、將目標“分解”為特 征,更容易在不同相機和傳感器之間關聯,融合效果好。在 BEV+transformer 算法中實際上均采用中融合的方式。
以路過大型卡車場景為例,障礙物某個時刻在 5 個攝像頭中同時出現,且每個 攝像頭只能觀察到車的某個部分。傳統算法通常會分別在每個攝像頭內完成檢測, 再融合各攝像頭的結果。通過部分信息識別出卡車整體的特征及其困難,且一旦完 成物體檢測,相當于“腦補”了看不到的部分,誤差較大拼接困難,經常會識別為 多個目標或漏檢。而 BEV+Transformer 通過特征級融合,完美生成鳥瞰視角下的場 景,并且識別精度更高。
(3)更易融入時序信息,模型擁有“記憶”,避免遮擋等問題
感知算法中,時序融合能夠大幅提升算法連續性,對障礙物的記憶可解決遮擋 問題,更好的感知速度信息,對于道路標志的記憶可提升駕駛安全和對汽車車輛行 為預測的準確度,增強算法的可靠性和精度。在 BEV+transformer 算法中,由于所有 的感知被統一到 3D 鳥瞰圖空間,通過將不同時間和不同位置的特征關聯可很容易的 實現時序信息的融合。如在面對遮擋場景時,帶有時序信息的自動駕駛算法感知效 果遠優于基于單幀圖像感知的算法。同時也更便于下游的規劃控制算法實現對障礙 物的追蹤。
(4)汽車擁有實時建圖能力,擺脫對高精度地圖的依賴
BEV+Transformer 算法可在車端實時構建媲美高精地圖的高精度局部地圖,能夠 在任意常規道路條件下,實現自動駕駛所需的靜態場景深刻理解,然后以此為基礎, 端到端的輸出障礙物的軌跡和速度、車道線信息等,實現復雜場景下的自動駕駛應 用,而不需要依賴高精地圖。使得算法的泛化性大幅提升,成本也大幅下降。
2.2、 占用網絡提供 3D 世界感知,形成通用障礙物識別能力
占用網絡構建通用障礙物感知體系,提升對未知物體感知效果。直接在矢量空 間產生統一的體積占用數據,對于車子周圍任意的一個 3D 位置,它預測了該位置被 占用的概率,對每個位置它還會產生一定的語義信息比如路邊、汽車、行人、或者路上的碎片等等,用不同的顏色標出,同時觀測速度信息,形成“占用柵格”+“柵 格流(描述速度信息)”+弱語義的表達形式。對特斯拉而言,即將原有 Transformer 算法輸出的 2DBEV+時序信息的向量空間增加高度信息,形成 3DBEV+時序信息的 4D 空間表達形式。網絡在 FSD 上每 10ms 運行一次,即以 100FPS 的速度運行,模 型檢測速度大幅提升。
占用網絡優勢顯著:(1)其改變了神經網絡算法先“認識”才能“識別”的特 性,形成了動靜態物體統一的障礙物感知方式,可大幅減少 Corner case,提升安全 性。(2)擺脫檢測框的約束,對不規則外形障礙物的感知能力大大增強。(3)對特 斯拉來說,通用障礙物感知能力可以復用到其他產品如機器人上,形成了統一的算 法框架。
占用網絡的構建并非單獨算法上得演進,而是體系能力的提升。3D 空間的距離 真值獲取實際上較為困難,即使擁有激光雷達,其稀疏的點云信息仍然難以滿足占 用網絡的訓練需求,而由于仿真環境中距離真值信息可以直接獲取,因此占用網絡 的構建幾乎和強大的仿真場景構建相輔相成。
2.3、 規控算法由基于規則邁向基于神經網,大模型開始嶄露頭角
2.3.1、 人工智能逐步滲透進入規控算法
發力安全性、舒適性和效率,規控算法成為當前頭部玩家主攻方向。人能夠基 于非常有限的感知信息完美實現駕駛行為,很大程度因為人類擁有強大的“規控” 能力。對自動駕駛而言,采取一種讓安全性、舒適性和效率都達到最大化的駕駛策 略無疑是各大廠商不懈追求的目標。而該環節也直接決定了自動駕駛功能的消費者 體驗,目前頭部玩家已經將主攻方向轉移到規控算法領域。
“擬人化”、強泛化性,人工智能推動自動駕駛“老司機”上線。規控算法的難 度較高,存在諸多非確定(如輔路與干道沒有綠化帶隔離,輔路的車輛可隨時進入 干道)、強交互(如多個物體在同一場環境下決策會相互影響,存在一定博弈性)、 強主觀(如駕駛員的駕駛風格,很難用有限標準量化表示)的場景。同時涉及交通 法規等一系列問題。早年的算法通常采用基于專家知識和規則的模式為主,由于基 于規則的系統需要不斷補充新的規則以實現對各類環境的良好應付,日積月累代碼 量龐大,占用算力資源,且不易維護。因此依靠數據驅動的基于人工智能的規控算 法日益走向臺前。面對復雜的外部環境,人工智能模型能夠更加平滑的以“類人”的 方式對駕駛行為進行處理,泛化能力強、舒適性好,應對復雜場景的能力大幅提升。
兼顧“安全”和“性能”,神經網絡和基于規則結合有望成為一段時期內規控算 法的主流。小鵬汽車自動駕駛負責人吳新宙曾表示,基于大數據和深度學習的算法 在規控領域的滲透會越來越深,預計未來整個框架都將基于深度學習為基礎,但基 于規則的算法也會長期存在,因為規控算法的可解釋性很重要?;谏窠浘W絡的規控算法有諸多優勢,但目前如訓練過程中數據的清洗、一致性;面向一些小場景特 定的算法調整;可解釋性差等問題仍客觀存在。因此諸多玩家目前仍采用以人工智 能和基于規則結合的方式來部署規控算法,制定一些規則來對人工智能產生的行為 進行兜底,實現較好的規控效果,未來隨著人工智能能力的提升,規控算法人工智 能化已經成為大勢所趨。 交互搜索+評估模型,特斯拉規控算法行止有效。在規控方面,特斯拉采用交互 搜索+評估模型的方式實現舒適、有效以及傳統搜索算法和人工智能的結合的算法。 具體如下:(1)決策樹生成:首先根據車道線、占用網絡、障礙物等得到候選目標, 生成一些候選目標;(2)軌跡規劃:通過傳統搜索和神經網絡的方式同步構建抵達 上述目標的軌跡;(3)交互決策:預測自車以及場景中其他參與者之間的相互作用, 形成新的軌跡,經過多次評估選擇最后軌跡。在軌跡生成階段,特斯拉采用了基于 傳統搜索算法和基于神經網絡兩種形式,之后根據碰撞檢查、舒適性分析、駕駛員 接管可能性和與人的相似程度等對生成的軌跡打分,決定走哪條路線?;谶@種方 式有效的將道路參與者的博弈考慮在內,同時完美將基于規則和基于人工智能結合, 呈現出強大競爭力。
2.3.2、 大模型賦能,車道線預測等復雜任務得以實現
復雜道路的車道拓普結構識別難度較高。自動駕駛車輛在行駛過程中需要明確 自車的道路情況和車道線拓撲情況,以此來決定如何規劃自己的行駛軌跡。但當車 道線模糊,或者十字路口等場景下,需要算法自己計算出車道線情況,來指導自身 的自動駕駛行為。我們看到一些玩家針對這樣的場景做出了優化,來完美應對各類 突發情況,產業算法不斷進化和成熟。
特斯拉采用訓練語言模型的形式來訓練車道線網絡模型。車道線網絡實際上是 嫁接在感知網絡上的一個 Transformer 的解碼器(Decoder)。參考自然語言處理任務 中的形式,讓模型用自回歸(綜合上個環節的結果輸出下個環節的內容)的方式輸 出車道線的預測結果。具體而言,將車道線包含節點位置、節點屬性(起點、終點、 中間點等)、分叉點、交叉點等進行編碼,形成類似語言模型中單詞的屬性,輸入 Transformer 解碼器中,將信息轉化成為“車道線語言”,去生成下個階段的結果,進 而形成整個路網的車道線的拓撲結構。
理想汽車在理想家庭日上也展示了其用于增強路口性能的算法 NPN 神經先驗 網絡。為了解決大模型在十字路口不穩定的問題,對復雜路口,提前進行路口的特 征提取和存儲,當車輛再次行駛到路口時刻,將過去提取好的特征和 BEV 感知大模 型融合,形成更加完美的感知結果。
2.4、 端到端(感知決策一體化):大模型為自動駕駛徹底實現帶來希望
2.4.1、 回歸自動駕駛第一性原理,端到端自動駕駛成為市場遠期共識
模塊化的自動駕駛算法設計存在諸多問題。前述文章中提到的感知、預測、規 劃等環節的算法稱為模塊化算法設計,這些方案中每個模塊獨立負責單獨的子任務, 這種方案具備簡化研發團隊分工,便于問題回溯,易于調試迭代等優點。但由于將 不同任務解耦,各個模塊之間容易產生信息損失問題,且多個模塊間優化目標不一 致,最后模塊間產生的誤差會在模型中傳遞。 端到端自動駕駛解決方案回歸自動駕駛第一性原理。因此業界也一直在探索端 到端的自動駕駛算法形式,即設計一個算法模型,直接輸入傳感器感知的信息,輸 出控制結果。端到端的自動駕駛算法擁有非常明顯的優勢:(1)其遵循了自動駕駛 的第一性原理:即無論感知、規劃、決策模塊如何設計,最終是為了實現更好的自 動駕駛效果,因此現有的方法聚焦單獨某個模塊的優化,對整體的效果提升未必有 效。(2)端到端的方式可避免極聯誤差,去掉冗余信息,提升視覺信息的表達。(3) 傳統模塊化的算法中需要面臨模型之間的多個編解碼環節,帶來的計算的冗余浪費。 (4)規則驅動徹底轉變為數據驅動,理想狀態下讓汽車自動駕駛模型訓練變得簡潔。
2.4.2、 工業界已經開啟探索,邁向完全自動駕駛
目前全球無論學術界還是工業界均對該方案進行了不懈探索。如英偉達 2016 年 即提出端到端的自動駕駛解決方案,而 Uber 更多次發相關的論文探索有關算法。最新的 CVPR2023 上商湯、OpenDriveLab、地平線等聯合發布的端到端的自動駕駛算 法 UniAD,獲得了當年的最佳論文。其采用 Transformer 將感知、決策、規劃、控制 模塊都融入到一個模型中,端到端的處理自動駕駛問題,能夠呈現出最佳的運行效 果。
目前英國初創公司 Wayve 亦致力于開發端到端的自動駕駛系統,致力于讓汽車 通過自己的計算機視覺平臺“自己看世界”,同時可以根據它所看到的東西做出自己 的決定。馬斯克也曾在推特上表示,其 FSD V12 版本將是一個端到端的自動駕駛模 型。
2.4.3、 大模型的思考,自動駕駛或許并非終點
通識知識和強泛化能力助力人類輕松學會駕駛。人類可以在短時間內學會駕駛, 但機器則需要海量的數據和訓練??赡艿脑蛟谟谌祟愒趯W習駕駛之前就已經充分 對整個世界有了全面的認知,并可以將這些認識泛化到各類場景下。如在學校附近 應該減速、遇到老人應當小心等,面對形狀怪異的紅綠燈人類幾乎不加思考就可理 解其想表達的意思。通識知識,強泛化能力可以對自動駕駛行為產生重大幫助。 GPT 受到市場追捧,也引發了自動駕駛界對模型構建方式的思考。前文提到的 英國公司 Wayve 亦在嘗試構建一個世界模型,通過使用與駕駛本身無關的數據,如 一些文本數據預訓練模型進而提升模型的駕駛性能。此外,公司亦在嘗試將自動駕 駛模型和自然語言結合,讓自動駕駛模型能夠描述自己的行為,進而增強模型的性能和可解釋性。國內毫末智行等也在做出相應的嘗試,建立大參數的模型,并將海 量駕駛場景編碼成語料,投喂給模型進行無監督學習,接著再加入人類反饋強化學 習幫助其掌握駕駛員的行為,進而讓模型擁有接近人的自動駕駛能力。大語言模型 的風靡也讓市場對自動駕駛模型構建的方式有了新的想象空間,DriveGPT 未嘗不是 一種可以嘗試的方向。
世界模型浮上水面,面向通用場景,解決通用問題。在最新的 CVPR2023 會議 上,特斯拉提出了世界模型,即構建一個模型,可觀察所有需要觀察的事物,并將 其轉化為向量空間,鏈接各類豐富的下游任務。該模型不止用于汽車,還可用于機 器人等等嵌入式人工智能場景。通過該模型可預測未來、構建仿真場景,通過語言 提示,讓它生成各類場景如直行、向右變道等。
2.5、 數據端:大模型推動數據閉環和仿真落地
神經網絡只決定了算法的上限,而是否能讓神經網絡發揮其效能,數據起到了 決定性的作用,因此如何尋找純凈且多樣化的海量數據集相比算法而言同等重要。
2.5.1、 數據閉環:自動化運行,降本增效推升規模是關鍵
完整的數據閉環系統,通經常包含數據采集、數據挖掘、數據標注、模型訓練 等環節。其對自動駕駛功能實現的重要性不言而喻,但當前自動駕駛車型傳感器越 來越高端,據 dSPACE 的數據,若采用 4k800 萬像素的攝像頭,每秒產生的數據將 達到 3GB,疊加激光雷達毫米波雷達等傳感器,整車每秒將產生的 40G 數據,每小 時產生 19Tb 數據,對整車廠的數據處理能力提出考驗。
數據采集:通常自動駕駛算法會采取一定的觸發(Trigger)機制來開啟數據上 傳。如出現人類駕駛和自動駕駛不一致的情況,或不同傳感器之間一致性不同的情 況,或者不同算法出現沖突,以及某些指定的特殊場景如近距離跟車、加塞、光照 急劇變化、陰影車道線等等。特斯拉在 2022AI DAY 上表示其擁有 221 種觸發器。 數據清洗/挖掘:數據清洗和挖掘實際上是數據處理的過程,通常采集的數據包 含大量的無用數據,這里需要算法將訓練模型所需要的數據提取出來,以實現有效 的數據收集,同時修正部分錯誤數據。這其中對于數據處理的“內功”要求深厚。 數據標注:挖掘到有價值的數據后,需要采用人工標注或自動標注的方式,疊 加部分仿真數據,形成數據集來實現對算法的訓練和迭代。這其中涉及 2D 標注、3D 標注、車道線標注、語義分割等,工作量大,同時影響著車企自動駕駛算法的迭代, 是數據閉環中的重中之重。
數據閉環收益顯著但成本不可忽視,降本增效是關鍵。數據標注方面,據特斯 拉 AI DAY 描述公司曾經組建了超過千人的團隊,早期通過人工在 2D 圖片上進行精 細標注,但效率低下;后改進為在向量空間完成標注,再通過投影投射到 8 個攝像 機里面,效率大幅提升;再之后特斯拉即建立了自動標注系統,通過離線大模型實 現自動標注,大幅提升標注效率。此外特斯拉通過多車輛聯合優化等方式來提升標 注的精確度,起到了良好的效果。行業其他玩家亦開發自動標注工具以降本增效, 據小鵬汽車描述,采用自動化標注工具后,公司能夠在 17 天內完成原本需要 200 個 人年才能完成的標注任務。數據閉環方面,特斯拉、小鵬、理想汽車均提到了各自 的自動化數據閉環體系,能夠全自動完成數據的采集、挖掘、標注、存儲等環節, 大大提升模型的訓練和迭代效率。
2.5.2、 仿真:從提升效率到不可或缺
仿真是自動駕駛系統構建不可或缺的環節。將數據采集過程中的實車數據經過 聚類、場景提取、泛化與篩選,構筑用于測試的虛擬世界,自動駕駛算法控制車輛, 與虛擬世界產生交互,并將交互結果輸出,在自動駕駛領域優勢明顯: (1)當數據極端難以獲取的時候,仿真可以生成大量的場景供模型訓練; (2)天然帶有標注信息。當數據難以標注的時候,如幾百萬人過馬路,標注成 本極高且效率低下容易產生錯誤,但仿真場景下不存在上述難點; (3)仿真可以給規控算法以安全的實驗環境; (4)仿真的價格低廉,效率高。 理論上完美的仿真能夠取代實車測試,進而以較低成本達到安全測試效果,縮 短自動駕駛算法研發周期,是自動駕駛開發迭代的重要環節。
不同的算法對仿真環境的構建提出不同要求。通常自動駕駛核心算法包括感知 算法、決策規劃算法、控制算法三大環節,其中感知算法仿真需要高還原度的三維 重建場景和精準的傳感器模型;決策規劃算法仿真需要大量的場景庫為支撐;控制 算法需要引入精準的車輛動力學模型。虛擬場景構建方面,通常需要模擬出與真實 世界一致的靜態、動態交通運行場景。靜態場景通常包含道路、車道線、減速帶、 交通標志、路燈、車站、周圍建筑等等,通常使用高精度地圖和三維重建技術構建 (通常需要回執高精度地圖并進行三維建模);動態場景包含動態指示設施、機動車 行為、非機動車行為、行人行為、通信環境、氣象變化、時間變化等。感知系統仿 真方面,包含攝像頭仿真(生成逼真的圖像并添加色彩和光學屬性等通常采用游戲 引擎來構建,如百度阿波羅采用 Unity3D、騰訊 TADSim 引入了虛幻引擎)、毫米波 雷達仿真、激光雷達仿真。車輛動力學仿真方面,通常基于多體動力學搭建模型, 其中包含車體、懸架系統、轉向系統、制動系統、動力系統、傳動系統等多個真實 部件的車輛模型。
對仿真工具而言,其能夠覆蓋的場景范圍越大,自動駕駛可行駛邊界就越廣泛。 因此評價自動駕駛算法最重要的標準就是測試其是否能夠處理足夠多的場景庫。通 常仿真模型會以真實采集的數據、模擬數據、以及根據真實場景合成的仿真數據為 數據源,對場景的幾何形狀、物理運動規律、以及場景中各個元素如車流、行人等符合邏輯規律,以實現更好的仿真效果。
自動駕駛仿真平臺市場競爭激烈,促使平臺仿真性能提升。自駕仿真平臺布局 主體眾多,可以劃分為科技公司、自駕解決方案商、仿真軟件企業、車企、高校及 科研機構五大類。科技公司擁有大數據優勢,軟件開發經驗豐富;自駕解決方案商 多針對自研發需要,較少對外提供仿真服務;不同仿真軟件企業經驗積累程度不同, 傳統企業積累深厚,初創企業積累薄弱;車企能夠將路測和仿真測試同步結合,但 限于自身軟件開發能力,多與外部仿真平臺提供商合作進行自動駕駛汽車開發;高 校及科研機構主要對自駕仿真軟件進行前瞻、基礎性研究。自駕仿真平臺參與者眾, 市場競爭激烈,具備更快迭代速度、更強仿真能力、更完善服務支持的仿真平臺將 快速成長。
DRIVE Sim:Nvidia 自動駕駛研發生態體系重要一環。DRIVE Sim 是由英偉達 開發的端到端仿真平臺,能夠進行大規模多傳感器仿真。DRIVE Sim 功能強大,能 夠提供核心模擬和渲染引擎,生成逼真的數據流,創建各種測試環境,模擬暴雨和 暴雪等各種天氣條件,以及不同的路面和地形,還可以模擬白天不同時間的眩目強 光以及晚上有限的視野,達到“照片級逼真且物理精確”的傳感器仿真。
DRIVE Sim 具有完善的工具鏈支持,融入英偉達自動駕駛開發生態。DRIVE Sim 可以在 Omniverse 云平臺上運行,也可以在 OVX 服務器組成的本地數據中心甚至單 顆 RTX3090 上運行。DRIVE Sim 具有開放式、模組化分特點,擁有良好的可拓展性: (1)支持神經重建引擎(NER),該 AI 工具可以將真實世界的數據直接帶入仿真中, 開發者可在仿真環境中修改場景、添加合成對象,并應用隨機化技術,大大增加真 實感并加快生產速度。(2)使用 NVIDIA Omniverse Kit SDK,DRIVE Sim 允許開發 人員構建自定義模型、3D 內容和驗證工具,或與其他模擬進行交互。(3)支持 DRIVE Replicator 生成與合成傳感器數據對應的真值數據,用于訓練自動駕駛汽車 DNN。 DRIVE Sim 已融入英偉達完整的軟硬協同生態,支持從概念到部署的自動駕駛汽車 開發及驗證。
51 Sim-One:本土仿真系統助力中國自動駕駛量產落地。Sim-One 是 51 World 全棧自研的云原生仿真平臺。(1)場景方面,Sim-One 具有豐富的場景生成方式, 特別是能基于語義泛化工具鏈能夠實現場景的快速定義;與第三方場景庫達成合作, 擴充場景數量,提高仿真測試質量。(2)平臺方面,Sim-One 具有豐富的功能,包 括靜態和動態數據導入、測試場景案例編輯、各類仿真、測試與回放、虛擬數據集 生成以及各類在環測試;Sim-One 基于原生云架構仿真平臺,支持大規模并發仿真 技術,日測試里程可達十萬公里。(3)評價方面,Sim-One 具備豐富的指標庫可供 用戶自行選擇進行評價,涵蓋安全性、違規性、舒適性、高效性、經濟能耗性、控 制準確性等多個維度,并且支持多場景并發評價。
AI 應用于仿真系統,能夠有效輔助自動駕駛系統升級。(1)在場景庫構建方面, 從傳感器數據中利用 AI 進行自動化、大規模三維重建,構建現實世界對象和背景的 幾何形狀、外觀和材料屬性;使用大量路采數據訓練 Agent AI,使之模仿道路場景 中的主體,賦予虛擬場景強交互性;利用已有場景庫與生成式 AI,自動生成無需標 注的各種交通場景數據。(2)在車輛仿真測試過程中,使用 AI 識別自動駕駛系統的 弱點,并自動創建對抗性場景,同時自駕系統使用 AI 算法自動從錯誤中學習,自動 迭代更新,無需密集手動調整算法,適應更快節奏、更大規模的訓練。AI 能使仿真 系統更有針對性,使自動駕駛算法調整自動化,加速自駕技術在現實世界落地。
3、 自動駕駛算法變革引領產業鏈變化
3.1、 兵馬未動糧草先行,云端算力軍備競賽開啟
對自動駕駛而言,大量的數據處理、訓練、自動標注、仿真等工作需要完成, 算力成為車企打造自動駕駛能力的核心,決定著車企的算法迭代效率和上限。特斯 拉表示其總算力在 2024 年將沖刺 100EFlops,而國內領先玩家亦不遑多讓,紛紛構 建自有的數據中心,自動駕駛的算力軍備競賽從車端蔓延到云端。
3.1.1、 特斯拉自研算力平臺 Dojo,2024 年沖刺 100EFlops 算力
特斯拉在應對海量訓練和仿真需求時構建了龐大的算力體系。據特斯拉在 2021 年 AI DAY 介紹,特斯拉為了移除自動駕駛系統對毫米波雷達的依賴,從 250 萬個 視頻剪輯中生成了超過 100 億個標簽,需要龐大的離線神經網絡和引擎。而硬件方 面,特斯拉在 2021 年 AI DAY 期間就擁有接近 1 萬塊 GPU,2022 年 AI DAY 上這一 數字提升到 1.4 萬片,其中約 50%的負載用來實現云端自動標注和車載占用網絡的訓 練。
自研 D1 芯片和 Dojo 超級計算機布局算力。為了進一步提升算力水平,2021 年 起特斯拉開始自研 D1 人工智能芯片和 Dojo 超級計算機。將 25 顆自研的 D1 芯片封 裝成 Dojo 訓練模塊,再將 120 個訓練模塊結合 Dojo 接口處理器等組件融合形成 Dojo 主機,目前 10 機柜的 Dojo ExaPOD 超級計算機將擁有 1.1EFlops 算力,并且擁有強 擴展能力,借助特斯拉強大的軟件能力,將有效提升其在算法領域的迭代速率。
而據特斯拉 AI 官方賬號顯示,特斯拉將在 2024 年 1 月將擁有等效 10 萬片英偉 達 A100GPU 的算力,在 2024 年的 10 月擁有 100EFlops 算力,等效 30 萬片英偉達 A100GPU 算力。
3.1.2、 國內自動駕駛領先玩家亦積極布局,算力成為自駕競爭“入場券”
國內玩家亦快速布局算力領域,為自身算法和數據的迭代和積累鋪平道路。2022 年 8 月,小鵬汽車與阿里云共同宣布在內蒙古烏蘭察布建成自動駕駛智算中心“扶 搖”,用于自動駕駛?!胺鰮u”的算力可達到 600PFLOPS,據何小鵬在小鵬科技日上 描述,智算中心將小鵬汽車的自動駕駛模型訓練效率提升百倍以上。毫末智行則聯 合火山引擎推出雪湖·綠洲智算中心,擁有 670PFLOPS 算力。此外 2023 年 1 月吉 利汽車也聯合阿里云推出吉利星睿智算中心,理想汽車在 2023 年同樣與火山引擎合 作在山西布局智算中心,蔚來等諸多車廠亦積極推動自有或云端算力的構建。
3.2、 自動駕駛芯片格局有望被重塑
3.2.1、 Transformer 大模型對芯片架構提出新的要求
Transformer 大模型對芯片架構提出新的要求。芯片架構決定著算法運行效率, 近年隨著 Transformer 算法風靡 AI 界,特斯拉引領下,Transformer 在自動自動駕駛 行業行業被廣泛使用,芯片對 Transformer 適配性將影響未來芯片的競爭格局。與傳 統卷積神經網絡(CNN)架構相比,Transformer 算法擁有顯著的不同: (1)算法對算力要求較高。Transformer 通常計算量較大,且在大參數和大數據 量的基礎上才能展現出更優異的模型性能,這對芯片的算力提出新的要求。 (2)對芯片的運算精度存在一定要求。考慮到算力的限制,目前的推理側芯片 通常采用 int8(整型)精度算力(int8 為運算數精度單位,Int8 指 8 位整型數,即用 8bit 來表示一個整數數字;相應的 FP16 為半精度浮點數,即用 16bit 表示一個小數, 精度更高),而對 Transformer 來說,由于其內部算子較為復雜,更適合于在采用浮 點運算的平臺運行。 (3)算子復雜度高,和卷積神經網絡顯著不同。相比傳統卷積神經網絡算法中 更多以較為規則的卷積矩陣乘法運算而言,Transformer 中算子復雜度高,有較多訪 存密集型算子,對訪存帶寬和存儲容量要求較高。而傳統 AI 芯片多基于卷積神經網 絡等算法優化,難以實現和 Transformer 的良好適配。
3.2.2、 芯片玩家開始著力加大產品對 Transformer 的適配度
鑒于上述特點,不少芯片廠商推出了可針對 Transformer 加速的芯片產品。未來, 能夠良好適配 Transformer 算法并幫助其在車載平臺落地的公司有望占得先機。
3.3、 自動駕駛產業加速成熟,配套公司全面受益
3.3.1、 BEV+Transformer 大模型的自動駕駛算法構建形式被市場廣為接受
特斯拉發布 BEV+Transformer 的算法以來,行業廣泛認可,我們看到諸多玩家 積極跟進,推出自己的大模型算法。理想汽車在最新的理想家庭科技日上宣布自動 駕駛已經進入大模型時代,而通勤NOA和城市NOA將成為未來消費者的剛需配置。
模型算法的落地代表著功能逐步走向成熟。2023 年以來,我們將陸續看到各大 車企紛紛落地自己的城市輔助駕駛相關車型,行業呈現百花齊放的狀態。這無疑將 助力整個自動駕駛產業鏈走向繁榮。
編輯:黃飛
評論
查看更多