真實駕駛場景中,通過觀察和互動,使智能駕駛汽車能夠積累知識并應對不可預測的情況。我們將智駕汽車的這種對世界運作方式稱為“常規認知”,它使智能汽車能夠找到自己的方向。對周邊環境目標的觀察也使自車能夠學習并遵守規則。機器學習中的一個類似概念是一種稱為模仿學習的方法,它允許模型學習模仿人類在給定任務中的行為。
Wayve作為最先發布最先進的端到端模型的公司,用基于CARLA的模擬數據學習世界模型和車輛駕駛策略,從而使汽車無需高清地圖即可實現自動駕駛。其中,基于模型的模仿學習 (MILE) 作為一種新的機器學習模型,更具體地說是一種強化學習架構,可以在離線訓練期間學習世界模型和駕駛策略。MILE 可以采用“泛化推理算法”對智駕汽車未來行駛環境進行合理且可視化的想象和預測,并利用這種能力來規劃其未來的行動。
前言 ?
由于實際過程中感知到的信息流通常是不完整且嘈雜的,因此AI大模型的應用大腦通過“想象學習”可以來填補這些缺失的信息。這也就解釋了為什么AI大模型下的智駕汽車能夠在被陽光致盲等情況下仍可以繼續駕駛。即使短時間內無法進行視覺觀察,仍然可以可靠地預測其下一個狀態和行動,以表現出安全的駕駛行為。 ?
類似地,基于模型的駕駛行為學習MILE 可以執行完全根據想象預測的準確駕駛計劃,而無需依靠實時的對環境進行視覺觀察。實際上MILE通過使用模型中的想象規劃,可以執行復雜的駕駛操作,例如駛過環島、標記停車標志或轉向為了避開摩托車手。 ?
從數量上來說,通過在完全循環的設置中運行來衡量預測計劃的準確性。在模型可以看到圖像觀察結果的觀察模式和模型必須想象下一個狀態和動作的想象模式之間切換,類似于由于陽光眩光而暫時失明的駕駛員。 ?
通過自動駕駛的動態代理和靜態環境在 3D 幾何中進行推理,MILE 使用每個圖像特征的深度概率分布以及深度箱、相機內在和外在的預定義網格,可以將汽車捕獲的圖像轉換到3D空間。這些 3D 特征體素可以通過使用預定義網格操作轉換為鳥瞰圖,最后一步是映射到一維向量從而壓縮有關世界模型的信息,這也是定義編碼器過程的一部分。 ?
觀察的下一部分將演化出一個與 StyleGAN 架構中發生的情況非常相似的解碼器。它是一種應用于編碼器輸出、鳥瞰圖和圖像潛在向量不同分辨率的上采樣方法。此外,解碼器還輸出車輛控制。對于時間建模而言,MILE 使用循環神經網絡對潛在狀態動態進行建模,根據前一個潛在狀態預測下一個潛在狀態。 ?
環境和其中作用的動態代理的精確模型為改進運動規劃提供了巨大的潛力。MILE模型可以根據過去的上下文想象未來的潛在狀態,并使用它們來利用學習到的駕駛策略來規劃和預測行動。未來狀態也可以通過解碼器可視化和解釋。 ?
在本文中,將介紹基于模型的模仿學習 MILE。該模型可用于學習自動駕駛車輛的協同控制并對世界環境進行動態建模。 ?
基于端到端模型學習概述 ?
端到端的學習過程可以僅根據高維視覺觀察預測駕駛命令來提高性能。有條件的模仿學習是學習端到端駕駛策略的一種有效方法,這種方法可以部署在模擬和現實城市駕駛場景中。盡管如此,從高維視覺觀察和專家軌跡中學習端到端策略仍然是相對非常困難的。已有一些算法試圖通過超越純粹的模仿學習來克服這些困難。比如提出迭代數據集聚合,其方法是在部署期間可能經歷的軌跡收集相應的數據。其次,還可以使用 BeV 語義分割來監督模型,讓學習者接觸專家數據的綜合擾動,以產生更穩健的駕駛策略。從所有車輛中學習(LAV)中不僅可以學習自車行為,還可以學習場景中其他所有車輛的行為,從而提高了樣本效率。此外,通過構建一個在強化學習教練來監督和訓練相應的智能體。 ?
1、城市場景學習 ?
駕駛本質上需要對環境有幾何理解,MILE 首先將圖像特征提升到 3D 空間并將其匯集到鳥瞰圖 (BeV) 表示中,從而利用 3D 幾何作為重要的歸納偏差。世界的演化是通過潛在動力學模型來建模的,該模型從觀察和專家行為中推斷出緊湊的潛在狀態。學習到的潛在狀態是輸出車輛控制的駕駛策略的輸入,并且還可以解碼為 BeV 分段以進行可視化并作為監督信號。 ?
相應提升至3D空間的操作可以詳細描述如下: ?
使用逆內函數 K?1和預測深度,像素圖像空間中的特征在相機坐標中被改進為 3D針孔相機模型;以自車的慣性中心點,設置剛體運動M將3D相機坐標轉換為3D車輛坐標; ?
剝離不匹配點。在訓練時,先驗信息被訓練為通過 KL 匹配后驗信息分歧,但是它們不一定針對穩健的長期未來預測進行優化。通過迭代應用轉換模型并整合中間狀態,優化狀態以實現穩健的多步預測。監督隨機展開的先驗時間范圍(即預測 t + k 處的狀態,其中 k ≥ 1)。
更準確地說,在訓練期間,以概率 pdrop 從先驗而不是后驗中采樣隨機狀態st,稱這種現象為觀察丟失。如果將 X 表示為表示先驗 k 次的隨機變量展開后,X 遵循成功概率 (1 ? pdrop) 的幾何分布。后驗分布被建模為兩個高斯分布的混合,其中一個來自先驗分布。在訓練過程中,一些后驗變量被隨機丟棄,迫使其他后驗變量最大化從輸入圖像中提取信息。觀察 dropout 可以被視為 z-dropout 的全局變體,因為它一起刪除所有后驗變量。 ?
實際上代理及其行為都不影響環境的這種假設在城市駕駛中很少成立,因此 MILE 使自車能夠模擬其他駕駛主體并規劃其如何響應自車行動。MILE模型可以根據長期的潛在狀態和行動來預測合理且多樣化的未來狀態。甚至可以在想象中預測整個駕駛計劃,以成功執行復雜的駕駛操作,例如通過環島,或轉向避開摩托車手。 ?
MILE使用循環神經網絡對時間進行建模,這樣可以維護一個總結所有過去觀察結果的單一狀態,然后在有新觀察結果可用時有效地更新狀態。這種設計決策對于延遲方面的部署具有重要的好處,而對驅動性能的影響可以忽略不計。 ? 在推理過程中,因為使用循環神經網絡對時間進行建模,這樣可以維護一個總結所有過去觀察結果的單一狀態,然后在新觀察結果可用時有效地更新狀態。這種設計決策對于延遲方面的部署具有重要的好處,而對驅動性能的影響可以忽略不計。 ?
2、3D 場景表示 ?
成功的自動駕駛規劃需要能夠理解和推理 3D 場景,而這對于單目相機來說可能具有挑戰性。一種常見的解決方案是將多個攝像機的信息壓縮為場景的單個鳥瞰圖。這可以在 3D 中通過學習特征的深度分布提升每個圖像的先驗識別能力,然后將所有視錐體分散到公共光柵化 BeV 網格中來實現。另一種方法是依靠transformers(時空融合)來學習從圖像到鳥瞰圖的直接映射,而不需要顯式地建模深度。 ?
3、世界模型 ?
基于模型的方法主要在強化學習環境中進行探索,這種方法實際是在完全離線狀態下強化學習,并假設在與環境進行在線交互中可以獲得獎勵。基于模型的模仿學習已成為機器人操作和 OpenAI Gym 中強化學習的替代方案。盡管這些方法不需要獲得獎勵,但它們仍然需要與環境進行在線交互才能獲得良好的性能。 ?
在視頻預測中,首先利用從圖像觀察中學習到的世界模型潛在動態,額外對獎勵函數進行建模,并優化他們在世界模型中的策略。當然,本文這里的算法是不假設訪問獎勵函數,而是直接從離線數據集中吸收學習策略。 ?
此外,以前的方法是對簡單的視覺輸入進行操作。相比之下,MILE 能夠從高分辨率輸入觀察中學習到復雜城市駕駛場景的潛在動態,這可以很好的確保小細節的感知性能(例如可靠地感知交通信號燈)。 ?
4、軌跡預測 ?
軌跡預測的目標是使用過去的物理狀態(例如位置、速度)和場景上下文(例如離線高清地圖)來估計動態代理的未來軌跡。世界模型構建了環境的潛在表示,解釋了根據自車行為而獲得感官輸入(例如相機圖像)的觀察結果。軌跡預測方法僅對動態場景進行建模,而世界模型則對靜態和動態場景進行聯合推理。在世界模型的學習模型中可以潛在表示移動代理未來軌跡的隱式編碼,并且如果我們可以訪問未來的軌跡標簽,則可以顯式進行解碼。 ?
這些編碼可以預測移動目標的未來軌跡,但沒有控制自車的主體。實際上,整個軌跡規劃關注的是預測問題,而不是簡單的從演示中學習專家行為。從專家的演示中推斷出自車代理的未來軌跡,并以某些特定目標為條件來執行新任務,這樣也可以共同模擬移動主體和自車的未來軌跡。
這里主要通過聯合模擬其他動態代理的運動、自車代理的行為以及靜態場景來進行軌跡預測。假設訪問不到地面真實物理狀態(位置、速度)或場景上下文的離線高清地圖。也就是這樣的先驗真值系統并不存在,這里僅使用攝像頭檢測的方法,可以對城市駕駛環境中的靜態場景、動態場景和自我行為進行建模。 ?
基于模型學習的方法論 ?
MILE方法利用3D幾何作為歸納偏差,并直接從專家演示的高分辨率視頻中學習高度緊湊的潛在空間。MILE 能夠想象合理的未來并相應地計劃行動,使模型能夠在想象中控制車輛。這意味著模型可以在無需訪問世界最新觀測結果的情況下成功控制車輛。 ?
1、概率生成模型
設 o1:T 為 T 視頻幀序列,具有相關的專家動作 a1:T 和地面實況 BeV 語義分割標簽 y1:T。通過引入控制時間動態的潛在變量 s1:T 來模擬這些動作的演化。 ?
完整的概率模型由如下方程給出。
?
假設初始分布參數化為 s1 ~N (0, I),通過引入一個變量 h1 ~δ(0) 作為確定性歷史。該轉換包括取決于過去歷史 ht 和過去狀態 st 的確定性更新 ht+1 = fθ(ht, st);隨機更新 st+1 ~N(μθ(ht+1, at), σθ(ht+1, at)I),其中,我們將 st 參數化為具有對角協方差的正態分布。通過使用神經網絡對這些轉換進行建模:fθ是門控循環單元,(μθ,σθ) 是多層感知器。δ為 Dirac delta 函數,gθ為圖像解碼器,lθ為 BeV 解碼器,πθ為策略。 ?
2、MILE模型預測架構 ?
整體的MILE的模型預測架構如下圖所示。其中包括了觀測網絡和推理網絡兩部分。下面將針對性的對該整體架構進行詳細分析。 ?
?
整個推理框架目標是推斷生成觀測值 o1:T 的潛在動態 (h1:T, s1:T ),專家操作a1:T和鳥瞰視圖標簽 y1:T,潛在動態包含確定性歷史ht和隨機狀態st。 ?
相應的推理模型是通過設定參數為φ,估計隨機狀態的后驗分布 q(st|o≤t, aφ(ht, at?1, xt),σφ(ht, at?1, xt)I) 且 xt = eφ(ot)。eφ是觀察編碼器,它可以將圖像二維特征提升到3D空間,從而將它們匯集到鳥瞰圖中,并壓縮為1D 向量。? ?
生成模型估計主要是在參數為θ條件下,估計t-1時刻隨機狀態的先驗分布:p(st|ht?1, st?1)~N (μθ(ht, a?t?1),σθ(ht, a?t?1) )I)。其中,ht = fθ(ht?1,st?1)為確定性轉換,a?t?1 =πθ(ht?1, st?1) 為預測動作。同時,該模型還估計如下三個模型參數: ?
觀測值 p(ot|ht, st)~N(gθ(ht,st),I)的分布;
鳥瞰圖分割 p(yt|ht, st) ~Categorical(lθ(ht, st));
執行動作 p(at|ht, st) ~Laplace(πθ(ht,st),1);
最后,是設定推斷時間步長,即通過該模型觀察T = 2個時間步的輸入來推測未來多步的潛在狀態和動作。 ?
? 推理網絡框架 ?
MILE實際上是一種基于模型的城市駕駛模仿學習方法,該方法僅從線下專家演示中共同學習駕駛策略和世界模型。利用幾何歸納偏差,對高維視覺輸入進行操作,MILE 可以預測多樣化且合理的未來狀態和行動,從而使模型能夠按照完全根據想象預測的計劃進行驅動。 ?
一個懸而未決的問題是如何從專家數據中推斷駕駛獎勵函數,因為這將有助于在世界模型中進行明確的規劃。另一個途徑是自監督,以放松對鳥瞰圖分割標簽的依賴。自監督可以充分釋放世界模型在現實世界駕駛和其他機器人任務中的潛力。 ?
如下圖所示,對 MILE 進行了完整的描述。其中,該圖中表示狀態之間條件依賴性的圖形模型。確定性狀態和隨機狀態分別用正方形和圓形表示,觀察到的狀態呈灰色。生成模型和推理模型的圖形模型中顯示了模型每個組件的參數數量及訓練期間使用的所有超參數
? ?
推理網絡是以φ為參數,由兩個元素組成:即觀測編碼器eφ,將輸入圖像、路線圖和車輛控制傳感器數據嵌入到低維向量中;后驗網絡(μφ,σφ),估計高斯后驗概率分布。通過對q(st|o≤t,a
為了以傳統的動力學模型為基礎進行有效地泛化學習,需要設計相應的觀察編碼器。 ? 整個模型狀態應該是緊湊的和低維的。因此,需要將高分辨率輸入圖像嵌入到低維向量中。與圖像分類任務類似,簡單地將圖像編碼為一維向量可能會導致性能不佳。相反,在模型中顯式編碼3D幾何則可以歸納偏差。 ? 該方法可以基于如下三個步驟實現降維編碼。 ?
1、將圖像特征提升至3D ?
由于自動駕駛是一個幾何問題,需要在3D中對靜態場景和動態代理進行推理。因此需要首先將圖像特征提升到3D。更準確地說,使用圖像編碼器對圖像輸入 ot ∈ R3×H×W 進行編碼,以提取特征 ut ∈ RCe×He×We。然后,沿著深度箱dt∈RD×He×We 的預定義網格預測每個圖像特征的深度概率分布。使用深度概率分布、相機內在參數 K 和外在參數 M生成相機坐標系到世界坐標系的投影矩陣,從而可以將圖像特征提升到3D空間:Lift(ut, dt, K?1 ,M)) ∈ RCe×D×He×De×3。 ?
2、BeV空間中的特征集合 ?
使用具有空間范圍Hb×Wb和空間分辨率bres的預定義網格將3D特征體素匯總到 BeV 空間,可以得到特征標識bt∈ RCe×Hb×Wb。 ?
在傳統的計算機視覺任務中(例如語義分割、深度預測),瓶頸特征通常是空間張量,大約有105-106個特征。對于必須將先驗分布(在執行動作的情況下認為會發生的情況)與后驗分布(通過觀察圖像輸入實際發生的情況)相匹配的世界模型來說,如此高的維度是令人望而卻步的。因此,使用卷積主干網backbone,可以將 BeV 特征 bt 壓縮為單個向量xt∈RC。同時,我們發現在BeV空間中壓縮比直接在圖像空間中壓縮顯得更加關鍵。 ?
3、路線圖和速度環境目標預測建模 ?
以路線圖的形式為智能體提供目標預測基準網絡,生成的是一個輕量化的灰度圖像,可以指示智駕汽車在交叉路口處往何方導航同行。同時,使用卷積模塊對路線圖進行編碼,可以產生1D特征rt;當前速度用全連接層編碼為mt;由此可以得出在每個時間步t,觀察嵌入xt可以表示為圖像特征、路線圖特征和速度特征的串聯:xt=[xt,rt,mt]∈RC,其中C= 512。 ?
4、生成網絡θ ?
這里的整個網絡數據處理過程是由生成網絡參數θ對潛在動態 (h1:T、s1:T)以及 (o1:T , y1:T, a1:T ) 的生成過程進行建模。其中涉及門控循環單元fθ、先驗網絡(μθ,σθ)、圖像解碼器gθ、BeV 解碼器lθ和策略πθ。 ?
先驗網絡估計高斯分布的參數為 p(st|ht?1, st?1) ~N (μθ(ht, a?t?1),σθ(ht, a?t?1)I) ,其中 ht = fθ(ht?1, st?1) ,a^t?1=πθ(ht?1, st?1)。由于先驗無法訪問t-1時刻地面真實動作at?1,因此,后驗分布估計則使用了學習策略 a^t?1=πθ(ht?1, st?1) 進行估計。 ?
5、估計散度損失 ?
實際上,無論先驗還是后驗分布估計都存在一定的散度損失,這類損失的由來可以解釋如下。 ?
給定過去的狀態 (ht?1, st?1),目標是預測下一個狀態st 的分布。當我們對主動代理進行建模時,這種轉換被分解為(i)動作預測和(ii)下一個狀態預測。該轉移估計將與 at?1 (可以訪問地面真實動作)和 ot (圖像觀察)的后驗分布進行比較。先驗分布試圖匹配后驗分布的分歧匹配框架可以確保模型預測解釋觀察到的數據行為和未來狀態。后驗與先驗的差異衡量了在觀察后驗時從先驗中丟失了多少信息,這種信息丟失也就是我們這里所說的散度損失。 ?
6、未來的狀態和行動預測 ?
如前所述,本文介紹的模型可以通過使用學習到的先驗策略來推斷T+i時刻動作 a^T +i=πθ(hT+i, sT+i),從而推斷出未來的潛在狀態,預測下一個確定性狀態 hT +i+1=fθ(hT +i,sT+i) 。同時,從先驗分布 sT+i+1~N (μθ(hT+i+1, a^T+i),σθ(hT+i+1, a^T+i)I),對于i≥0進行過程迭代,得出的結果可應用于潛在空間中生成的較長未來序列,并且該預測的未來序列可以通過解碼器可視化。 ?
在駕駛過程中的任何給定時間,存在多種可能的有效行為。例如,駕駛員可以稍微調整速度、決定改變車道或決定跟在車輛后面的安全距離是多少。確定性駕駛策略無法模擬這些微妙之處。在可能有多種選擇的模糊情況下,它通常會學習平均行為,這在某些情況下是有效的(例如,平均安全距離和平均巡航速度是合理的選擇),但在其他情況下是不安全的(例如,在變道時:比較老練的方式是可以提早或晚變道,而一般的行為是在車道標記上行駛)。 ?
整個未來狀態的狀態和行動閉環驅動中的完全循環推理涉及如下兩步: ?
(i)重置狀態:對于每個新的觀察,重新初始化潛在狀態并重新計算新狀態 [hT,sT],其中T與訓練序列長度匹配。 ?
(ii)完全循環:潛在狀態估計是在評估開始時進行初始化的,并且用新的觀察結果遞歸更新。??????? ?
模型必須學習一種表示形式,該表示形式可以概括為比訓練期間使用的 T 多幾個數量級的信息集成步驟。實踐證明,MILE可以在想象模式下以高達 30% 的驅動力保持相同的驅動性能。該模型可以想象足夠準確的閉環駕駛計劃。此外,世界模型的潛在狀態可以在觀察模式和想象模式之間無縫切換。當無法進行觀察時,可以通過想象來預測潛在狀態的演變,并在可以進行觀察時通過圖像觀察進行更新。 ?
? 總結 ?
MILE是在城市駕駛數據的離線語料庫上進行訓練的,無需與環境進行任何在線交互。框架的局限性之一是自適應的手動獎勵功能,而不是根據專家駕駛員數據推斷。
第二個重要的潛在問題是很大程度上依賴鳥瞰圖像分割來預測未來狀態。
第三個潛在的改進是不同場景的模型泛化。模型可以預測多樣化且合理的狀態和動作,這些狀態和動作可以解釋性地解碼為鳥瞰圖語義分割。此外,MILE可以根據完全在想象中預測的計劃執行復雜的駕駛操作。因此,整體上MILE模型預測可以對靜態場景、動態場景進行建模,以及城市駕駛環境中的智駕車輛行為。
審核編輯:劉清
評論
查看更多