最近炒得比較火的影子模式實(shí)際就是在通過(guò)數(shù)據(jù)收集的方式不斷模擬自動(dòng)駕駛系統(tǒng)按照人類(lèi)駕駛習(xí)慣實(shí)現(xiàn)人之間的交互過(guò)程。對(duì)于開(kāi)發(fā)者而言,則需要重新思考人類(lèi)駕駛員之間是如何正常且正確交互的,從而在設(shè)計(jì)實(shí)現(xiàn)所標(biāo)定的控制參數(shù)中不斷模擬并實(shí)現(xiàn)社會(huì)面相契合的自動(dòng)駕駛。 ?
實(shí)際上對(duì)于如何為自動(dòng)駕駛真正有效的交互控制能力而言,其核心是需要尋求如下一系列基本問(wèn)題的答案的: ?
首先,什么是實(shí)際道路駕駛中需要考慮的場(chǎng)景交互過(guò)程?各類(lèi)場(chǎng)景交互的優(yōu)劣如何評(píng)價(jià)?如何為合理且正確的場(chǎng)景交互行為建模?如何將建模結(jié)果應(yīng)用于后續(xù)開(kāi)發(fā)過(guò)程中? ?
回答如上問(wèn)題就需要理解復(fù)雜交通場(chǎng)景中各行駛車(chē)輛之間動(dòng)態(tài)交互的原則和傾向性,通過(guò)利用對(duì)環(huán)境目標(biāo)行為或反應(yīng)的信念和期望,產(chǎn)生不同的社會(huì)駕駛行為;預(yù)測(cè)該對(duì)應(yīng)移動(dòng)目標(biāo)場(chǎng)景的未來(lái)狀態(tài),可以最大限度的構(gòu)建安全的智能車(chē)輛行駛行為,進(jìn)而對(duì)行為預(yù)測(cè)和潛在碰撞過(guò)程提升相應(yīng)的檢測(cè)能力;最終為開(kāi)發(fā)創(chuàng)建逼真的仿真駕駛模擬器。
如何定義可解釋的駕駛行為 ?
在某種程度上,預(yù)測(cè)需要圍繞在高階自動(dòng)駕駛系統(tǒng)中觀(guān)察到的軌跡是否具備可解釋性而構(gòu)建的,目標(biāo)識(shí)別過(guò)程有助于直觀(guān)解釋其軌跡預(yù)測(cè)的合理性,從而有助于進(jìn)行系統(tǒng)分析和調(diào)試。這樣將朝著使我們的自動(dòng)駕駛系統(tǒng)將向更值得信賴(lài)的方向發(fā)展,也是證明系統(tǒng)決策的能力的關(guān)鍵。
自車(chē)以藍(lán)色顯示,條形圖顯示非自車(chē)的目標(biāo)概率。對(duì)于每個(gè)目標(biāo),最多顯示兩個(gè)最有可能到達(dá)目標(biāo)的預(yù)測(cè)軌跡,其表示寬度與概率成正比。這里的可解釋性指的是自車(chē)對(duì)其目標(biāo)車(chē)的所有實(shí)際行為所做出的預(yù)判都具備可解釋性、合理性分析。比如如下為典型的4個(gè)自動(dòng)駕駛場(chǎng)景下,可以分別給出不同的解釋性說(shuō)明。
(a)場(chǎng)景1:T字路口換道避撞????????????????
(b) 場(chǎng)景2:十字路口
(c)場(chǎng)景3:環(huán)島路口駛出避撞????????????????
(d) 場(chǎng)景4:紅綠燈復(fù)雜場(chǎng)景 ? ? ? ? ?
(a)S1:自車(chē)目標(biāo)是一個(gè)前方藍(lán)色目標(biāo)。車(chē)輛 V1 在自車(chē)道上,V1 從左向右變道,如果偏離自車(chē)的預(yù)測(cè)軌跡,那么自動(dòng)駕駛控制將會(huì)退出。由于避撞需要大幅減速,自車(chē)可以決定換道以避免被減速。因?yàn)槿绻?V1 的目標(biāo)是向東行駛,則變道將是不合理的。 ?
(b)S2:自車(chē)目標(biāo)是一個(gè)前方藍(lán)色目標(biāo)。車(chē)輛 V1 正從東面接近交叉路口,車(chē)輛 V2 從西面接近。當(dāng) V1 接近交叉路口、減速并等待轉(zhuǎn)彎時(shí),自車(chē)對(duì) V1 將右轉(zhuǎn)的信念顯著增加,因?yàn)槿绻繕?biāo)是左轉(zhuǎn)或直行,停下來(lái)是不合理的。由于自車(chē)識(shí)別出V1的目標(biāo)是往北走,它預(yù)測(cè)V1會(huì)等到V2過(guò)去,給自車(chē)一個(gè)上路的機(jī)會(huì)。 ?
(c)S3:自車(chē)目標(biāo)是綠色目標(biāo)。當(dāng) V1 從環(huán)形交叉路口的內(nèi)側(cè)車(chē)道變?yōu)橥鈧?cè)車(chē)道并降低速度時(shí),自車(chē)將預(yù)測(cè)V1 將從南出口駛出,因?yàn)檫@是實(shí)現(xiàn)該目標(biāo)的合理行動(dòng)過(guò)程。這樣,自車(chē)將在 V1 仍在環(huán)形交叉路口時(shí)駛?cè)氕h(huán)形交叉路口。 ?
(d)S4:自車(chē)的目標(biāo)是紫色目標(biāo)。兩輛車(chē)在紅綠燈處停在路口,車(chē)輛 V1 從后面接近他們,車(chē)輛 V2 從相反的方向穿過(guò)。當(dāng) V1 達(dá)到零速度時(shí),目標(biāo)生成函數(shù)在其當(dāng)前位置為 V1 添加一個(gè)停止目標(biāo)(橙色),此目標(biāo)分布將向它移動(dòng),因?yàn)橥V箤?duì)于北/西目標(biāo)來(lái)說(shuō)是不合理的。 ?
本文提出的車(chē)輛軌跡預(yù)測(cè)方法 ?
基于前序分析,可以說(shuō)預(yù)測(cè)其他車(chē)輛的意圖和行駛軌跡的能力是自動(dòng)駕駛的關(guān)鍵問(wèn)題。首先,對(duì)于駕駛場(chǎng)景中這種耦合多代理交互是一種有限觀(guān)察數(shù)據(jù),可以增強(qiáng)預(yù)測(cè)環(huán)境移動(dòng)目標(biāo)趨勢(shì)的能力,從而做出快速準(zhǔn)確的預(yù)測(cè),因此這個(gè)問(wèn)題將變得非常復(fù)雜。
為了在這種情況下進(jìn)行預(yù)測(cè),自動(dòng)駕駛研究的標(biāo)準(zhǔn)方法是假設(shè)車(chē)輛使用有限數(shù)量的不同高級(jí)操作之一,例如車(chē)道跟隨、變道、轉(zhuǎn)彎、停止等。 ? 最近基于深度學(xué)習(xí)的方法在自動(dòng)駕駛中呈現(xiàn)了不少令人驚喜的結(jié)果。這些預(yù)測(cè)模型是在大型數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集通過(guò)涉及傳感車(chē)輛(例如視頻、激光雷達(dá)、雷達(dá))的數(shù)據(jù)收集活動(dòng)變得可用。 ?
為了預(yù)測(cè)車(chē)輛的未來(lái)行駛動(dòng)機(jī),我們必須推理為了什么目的 - 車(chē)輛執(zhí)行其過(guò)去的行駛路徑還是改變其預(yù)期路徑,這就需要了解其他車(chē)輛的目標(biāo)來(lái)預(yù)測(cè)其未來(lái)的行駛動(dòng)機(jī)和軌跡,這有助于在未來(lái)一定的時(shí)間范圍內(nèi)進(jìn)行精準(zhǔn)規(guī)劃。那么,這種推理將有助于解決保守的自動(dòng)駕駛問(wèn)題。
?
這里我們需要通過(guò)分類(lèi)器來(lái)根據(jù)觀(guān)察到的駕駛軌跡,預(yù)測(cè)當(dāng)前車(chē)輛需要執(zhí)行的操作。這種方法的局限性在于它們只能檢測(cè)其他車(chē)輛的當(dāng)前動(dòng)機(jī),因此使用此類(lèi)預(yù)測(cè)規(guī)劃器實(shí)際上受限于檢測(cè)到的運(yùn)動(dòng)時(shí)間尺度。另一種方法是為每個(gè)其他車(chē)輛指定一組有限的可能目標(biāo)(例如道路出口點(diǎn)),并根據(jù)車(chē)輛觀(guān)察到的局部狀態(tài)規(guī)劃到每個(gè)目標(biāo)的完整軌跡。雖然這種方法可以生成長(zhǎng)期預(yù)測(cè),但其局限性在于生成的軌跡必須與車(chē)輛相對(duì)緊密地匹配,才能對(duì)車(chē)輛的目標(biāo)做出高置信度的預(yù)測(cè)。 ?
本文闡述了一種用于自動(dòng)駕駛的集成預(yù)測(cè)和規(guī)劃系統(tǒng),該系統(tǒng)使用“理性逆向規(guī)劃”(也就是逆向假設(shè))來(lái)識(shí)別其他車(chē)輛的目標(biāo)。目標(biāo)識(shí)別通過(guò)蒙特卡洛樹(shù)搜索 (MCTS) 算法來(lái)規(guī)劃自車(chē)的最佳行駛策略。逆向規(guī)劃和 MCTS 利用一組共享的已定義演習(xí)和宏觀(guān)行動(dòng),以此來(lái)構(gòu)建合理性說(shuō)明的行動(dòng)規(guī)劃。城市駕駛場(chǎng)景模擬評(píng)估表明該系統(tǒng)能夠穩(wěn)健地識(shí)別其他車(chē)輛目標(biāo),使我們的車(chē)輛能夠利用重要的機(jī)會(huì)來(lái)顯著減少駕駛時(shí)間。在每種情況下都需要會(huì)為證明系統(tǒng)預(yù)測(cè)及決策是否合理輸出直觀(guān)的解釋。 ?
為此,利用可解釋的基于目標(biāo)行為分析的預(yù)測(cè)和規(guī)劃 (IGP2),利用有限空間下的運(yùn)動(dòng)分析計(jì)算優(yōu)勢(shì),可以很好的擴(kuò)展機(jī)動(dòng)序列的規(guī)劃和預(yù)測(cè)方法。通過(guò)理性逆向規(guī)劃的新穎整合來(lái)實(shí)現(xiàn)這一目標(biāo),以識(shí)別其他車(chē)輛目標(biāo),并使用蒙特卡洛樹(shù)搜索 (MCTS)為自車(chē)規(guī)劃最佳行動(dòng)軌跡。
實(shí)際上,這種最佳軌跡的預(yù)測(cè)是通過(guò)逆向規(guī)劃和 MCTS ,利用一組共享的已定義操作來(lái)構(gòu)建合理性原則解釋的運(yùn)動(dòng)規(guī)劃,即規(guī)劃相對(duì)于給定指標(biāo)應(yīng)該是最優(yōu)的,來(lái)實(shí)現(xiàn)的。 ?
IGP2:可解釋的基于目標(biāo)的預(yù)測(cè)和規(guī)劃 ?
整個(gè)預(yù)測(cè)方法依賴(lài)于兩個(gè)假設(shè):首先,每輛車(chē)都試圖從一組可能的目標(biāo)中達(dá)到某個(gè)(未知)目標(biāo),同時(shí),每輛車(chē)都遵循從一個(gè)有限的已定義操作庫(kù)來(lái)生成對(duì)應(yīng)的規(guī)劃。 ?
下圖中概述了我們提議的 IGP2 系統(tǒng)中的組件。
? ?
在高層次上,可解釋的行為預(yù)測(cè)能力IGP2 近似最優(yōu)自車(chē)行駛策略 π* 定義如下: 對(duì)于每個(gè)非自車(chē)情況,生成其可能的目標(biāo)并為該車(chē)輛反向規(guī)劃每個(gè)目標(biāo)。每個(gè)非自車(chē)的最終目標(biāo)概率和預(yù)測(cè)軌跡是由蒙特卡洛樹(shù)搜索 (MCTS) 算法的模擬過(guò)程所提供的信息生成的,這一過(guò)程中包含了自車(chē)朝向其當(dāng)前目標(biāo)的最佳機(jī)動(dòng)計(jì)劃。為了在逆向規(guī)劃和 MCTS 中保持所需的高效搜索能力,如上這些操作需要使用上下文信息靈活地連接操作。 ?
本文將在如下部分中詳細(xì)介紹如上圖中的這些組件如何生成。 ?
A. 行為預(yù)測(cè) ?
在對(duì)智駕車(chē)輛進(jìn)行行為預(yù)測(cè)分析的時(shí)候,需要提前做出一些行為假設(shè)。比如,我們可以假設(shè)每輛車(chē)都在執(zhí)行以下操作之一:車(chē)道跟隨、左/右變道、左/右轉(zhuǎn)、讓路、停止。每個(gè)機(jī)動(dòng)參數(shù) ω 指定適用性和終止條件。例如,左變道僅適用于車(chē)輛左側(cè)有一條相同行駛方向的車(chē)道,并在車(chē)輛到達(dá)新車(chē)道且其方向與車(chē)道對(duì)齊時(shí)終止。 ?
一些動(dòng)作有自由參數(shù),例如 follow-lane 有一個(gè)參數(shù)來(lái)指定何時(shí)終止。如果適用,指定機(jī)動(dòng)車(chē)輛要遵循的局部軌跡可以表示為 si 1:n,其中包括全局坐標(biāo)系中的參考路徑和沿路徑的目標(biāo)速度。為了便于說(shuō)明,我們假設(shè) si 使用與 si 相同的表示和索引,但通常情況并非如此(例如,s可以按縱向位置而不是時(shí)間進(jìn)行索引,它可以插值到時(shí)間指數(shù))。
此時(shí),參考路徑是通過(guò)貝塞爾樣條函數(shù)生成的,該樣條函數(shù)擬合到從道路拓?fù)渲刑崛〉囊唤M點(diǎn),目標(biāo)速度是使用類(lèi)似于域啟發(fā)式方法進(jìn)行設(shè)置。 ?
B.宏動(dòng)作 ?
宏動(dòng)作指定了智能汽車(chē)的常見(jiàn)機(jī)動(dòng)序列,并根據(jù)道路布局等上下文信息自動(dòng)設(shè)置機(jī)動(dòng)車(chē)運(yùn)動(dòng)的自由參數(shù)。下表指定了我們系統(tǒng)中使用的宏操作。宏動(dòng)作的適用條件由宏動(dòng)作中第一個(gè)機(jī)動(dòng)的適用條件以及可選的附加條件給出。宏動(dòng)作的終止條件由宏動(dòng)作中最后一個(gè)機(jī)動(dòng)的終止條件給出。 ? ?
宏動(dòng)作 | 附加應(yīng)用條件 | 手動(dòng)序列(操作參數(shù)) |
繼續(xù)行駛 | -- | 跟車(chē)(可見(jiàn)車(chē)道的尾部) |
繼續(xù)駛向出口 | 必須在環(huán)島且未在駛出車(chē)道 | 跟車(chē)(下一個(gè)出口點(diǎn)) |
變道左邊/右邊 | 有一個(gè)車(chē)道向左或右方 | 跟車(chē)(直道目標(biāo)車(chē)道清晰),變道至左/右 |
退出至左/右方 | 出口點(diǎn)在車(chē)輛前方相同的車(chē)道上 | 跟車(chē)(出口點(diǎn)),給定道路(相關(guān)車(chē)道),轉(zhuǎn)向左/右 |
停止 | 存在一個(gè)停止目標(biāo)在當(dāng)前車(chē)道的前方 | 跟車(chē)(關(guān)閉向停止點(diǎn)),停止 |
? C. 速度平滑 ?
為了獲得車(chē)輛 i 的可行軌跡,需要定義一個(gè)速度平滑操作,用于優(yōu)化給定軌跡 si 1:n 中的目標(biāo)速度。設(shè)置 xt 為參考路徑上在 si 和 vt 處的縱向位置,其目標(biāo)速度為 1 ≤ t ≤ n。我們將 κ : x → v 定義為點(diǎn) xt 之間目標(biāo)速度的分段線(xiàn)性插值。給定兩個(gè)時(shí)間步長(zhǎng)差值為時(shí)間Δt;最大速度和加速度,vmax/amax;并設(shè)置 x1 = x^1, v1 = v^1,我們將速度平滑定義為: ?
?
其中,λ > 0 是給予優(yōu)化目標(biāo)的加速部分的權(quán)重。如上公式是一個(gè)非線(xiàn)性非凸優(yōu)化問(wèn)題,例如,使用原始對(duì)偶內(nèi)點(diǎn)法可以解決該類(lèi)問(wèn)題。 ?
從問(wèn)題的解決方案 (x2:n, v2:n) 中,利用插值可以獲得原始點(diǎn)在 x^t 處可實(shí)現(xiàn)的速度。 ?
D. 目標(biāo)識(shí)別 ?
我們假設(shè)每個(gè)非自車(chē) i 尋求達(dá)到有限數(shù)量的可能目標(biāo)之一 Gi ∈ Gi ,使用從我們定義的宏觀(guān)行動(dòng)中構(gòu)建對(duì)應(yīng)的運(yùn)動(dòng)規(guī)劃。我們使用理性逆向規(guī)劃的框架來(lái)計(jì)算 i 在時(shí)間 t 的目標(biāo)的貝葉斯后驗(yàn)分布: ?
?
其中 L(s1:t|Gi) 是假設(shè) i 的目標(biāo)為 Gi 時(shí)觀(guān)察到的軌跡的似然,p(Gi) 指定 Gi 的先驗(yàn)概率。 ?
似然度是兩個(gè)計(jì)劃之間獎(jiǎng)勵(lì)差異的函數(shù):從 i 的初始觀(guān)察狀態(tài) si1 到速度平滑后的目標(biāo) Gi ,得到最佳軌跡的獎(jiǎng)勵(lì) r^,沿著觀(guān)察到的軌跡直到時(shí)間 t 的軌跡獎(jiǎng)勵(lì) r ,然后繼續(xù)以最佳方式達(dá)到目標(biāo) Gi,平滑僅應(yīng)用于 t 之后的軌跡。 ?
概率定義為一個(gè)縮放參數(shù),這種可能性定義假設(shè)車(chē)輛以近似理性地(即最佳地)駕駛以實(shí)現(xiàn)其目標(biāo),同時(shí)允許有一些偏差。如果目標(biāo)不可行,我們將其概率設(shè)置為零。 ?
1)目標(biāo)生成: 啟發(fā)式函數(shù)用于根據(jù)車(chē)輛 i 的位置和上下文信息(例如道路布局)生成一組可能的目標(biāo) Gi。在我們的系統(tǒng)中,我們包括當(dāng)前道路和連接道路可見(jiàn)端的目標(biāo)(以自車(chē)的視野區(qū)域?yàn)榻纾3舜祟?lèi)靜態(tài)目標(biāo)之外,還可以添加取決于當(dāng)前流量的動(dòng)態(tài)目標(biāo)。例如,密集合并場(chǎng)景中,動(dòng)態(tài)添加停止目標(biāo)以模擬車(chē)輛允許自車(chē)在前方合并的意圖。 ?
2)機(jī)動(dòng)檢測(cè): 機(jī)動(dòng)檢測(cè)用于檢測(cè)車(chē)輛當(dāng)前(在時(shí)間t)需要執(zhí)行的動(dòng)作,在持續(xù)規(guī)劃之前允許逆向規(guī)劃所需要完成的動(dòng)作。假設(shè)有一個(gè)模塊計(jì)算每輛車(chē) i 的當(dāng)前動(dòng)作概率 p(ωi),一種選擇是貝葉斯變點(diǎn)檢測(cè)。由于不同的當(dāng)前動(dòng)作可能暗示不同的目標(biāo),可以對(duì) p(ωi) > 0 的每個(gè)可能的當(dāng)前動(dòng)作執(zhí)行逆向規(guī)劃。因此,每個(gè)當(dāng)前動(dòng)作產(chǎn)生其相關(guān)的目標(biāo)后驗(yàn)概率可以表示為 p(Gi| s1:t , ωi). ?
3)逆向規(guī)劃: 逆向規(guī)劃是使用 A*search 對(duì)宏觀(guān)行動(dòng)進(jìn)行規(guī)劃。A* 在完成產(chǎn)生初始軌跡 s^1:τ 的當(dāng)前機(jī)動(dòng) ωi 后開(kāi)始。每個(gè)搜索節(jié)點(diǎn) q 對(duì)應(yīng)于一個(gè)狀態(tài) s ∈ S,初始節(jié)點(diǎn)處于狀態(tài) s^τ ,并且宏動(dòng)作通過(guò)它們應(yīng)用于 s 的適用性條件進(jìn)行過(guò)濾。A* 選擇通向節(jié)點(diǎn) q’ 的下一個(gè)宏操作,該節(jié)點(diǎn)對(duì)目標(biāo) Gi 的估計(jì)總成本最低,由 f(q’ ) = l(q’ ) + h(q’)到達(dá)節(jié)點(diǎn) q’ 的成本 l(q’ )計(jì)算得出。由從 i 在初始搜索節(jié)點(diǎn)中的位置到它在 q’ 中的位置行駛時(shí)間給出,遵循通向 q’ 的宏動(dòng)作返回的軌跡。 ?
?
A* 假設(shè)所有其他未計(jì)劃在觀(guān)察到的軌跡后使用恒速車(chē)道跟隨模型的車(chē)輛。我們?cè)谀嫦蛞?guī)劃期間不檢查碰撞。用于估計(jì)從 q’ 到目標(biāo) Gi 的剩余成本的成本啟發(fā)式 h(q 0 ) 由在限速下從 i 在 q0 中的位置通過(guò)直線(xiàn)到目標(biāo)的行駛時(shí)間給出。h(q0 ) 的這個(gè)定義根據(jù) A* 理論是可接受的,它確保搜索返回最優(yōu)計(jì)劃。找到最優(yōu)計(jì)劃后,我們從計(jì)劃中的機(jī)動(dòng)和初始段 s^1:τ 中提取完整的軌跡 s^i 1:n。 ?
4) 軌跡預(yù)測(cè): 我們的系統(tǒng)必須要為給定的車(chē)輛和目標(biāo)預(yù)測(cè)多個(gè)可能的軌跡。因?yàn)樵谀承┣闆r下,不同的軌跡可能是(接近)最佳的,但可能導(dǎo)致不同的預(yù)測(cè),這可能需要自車(chē)的不同行為。我們運(yùn)行 A* 搜索一段固定的時(shí)間,并讓它計(jì)算一組具有相關(guān)獎(jiǎng)勵(lì)的計(jì)劃(最多一些固定數(shù)量的計(jì)劃)。 ?
每當(dāng) A* 搜索找到一個(gè)達(dá)到目標(biāo)的節(jié)點(diǎn)時(shí),相應(yīng)的計(jì)劃就會(huì)添加到計(jì)劃集中。給定一組平滑軌跡{s^i,k 1:n |ω i, Gi} k=1..K 到具有初始狀態(tài) ω i 和相關(guān)獎(jiǎng)勵(lì) rk = Ri(s^i,k1:n) 的目標(biāo) Gi,我們通過(guò)如下波爾茲曼分布預(yù)測(cè)可以得到最優(yōu)軌跡: ?
其中 γ 是縮放參數(shù)(設(shè)定 γ = 1)。 ?
E. 自車(chē)規(guī)劃
為了計(jì)算自車(chē)的最佳計(jì)劃,我們使用目標(biāo)概率和預(yù)測(cè)軌跡來(lái)實(shí)現(xiàn)蒙特卡羅樹(shù)搜索 (MCTS) 算法。 ?
該算法執(zhí)行多個(gè)閉環(huán)模擬 s^t:n,從當(dāng)前狀態(tài) s^t = st 開(kāi)始向下到某個(gè)固定的搜索深度或直到達(dá)到目標(biāo)狀態(tài)。在每次模擬開(kāi)始時(shí),對(duì)于每個(gè)非自車(chē),我們首先對(duì)當(dāng)前機(jī)動(dòng)進(jìn)行采樣,然后使用相關(guān)概率對(duì)車(chē)輛的目標(biāo)和軌跡進(jìn)行采樣。搜索樹(shù)中的每個(gè)節(jié)點(diǎn) q 對(duì)應(yīng)于一個(gè)狀態(tài) s ∈ S 并且宏動(dòng)作通過(guò)它們應(yīng)用于 s 的適用性條件進(jìn)行過(guò)濾。
在使用一些探索技術(shù)選擇宏動(dòng)作 μ 之后,根據(jù)宏動(dòng)作 μ 生成的軌跡和非自車(chē)的采樣軌跡,對(duì)當(dāng)前搜索節(jié)點(diǎn)中的狀態(tài)進(jìn)行前向模擬,生成部分軌跡 s^τ:ι 和新的搜索節(jié)點(diǎn) q0 與狀態(tài) s^ι 。 ?
軌跡的前向模擬使用比例控制和自適應(yīng)巡航控制的組合來(lái)控制車(chē)輛的加速和轉(zhuǎn)向。根據(jù)對(duì)車(chē)輛的觀(guān)察,在每個(gè)時(shí)間步長(zhǎng)中監(jiān)控車(chē)輛運(yùn)動(dòng)的終止條件。對(duì)s^τ:ι 執(zhí)行碰撞檢查以檢查自車(chē)是否發(fā)生碰撞,在這種情況下,我們將獎(jiǎng)勵(lì)設(shè)置為 r ← rcoll進(jìn)行反向傳播,其中 rcoll 是方法參數(shù)。如果新?tīng)顟B(tài) s^ι 達(dá)到自車(chē)目標(biāo) Gε,我們計(jì)算反向傳播的獎(jiǎng)勵(lì)為 r ← Rε (s^t:n)。如果搜索達(dá)到其最大深度 dmax 而沒(méi)有碰撞或?qū)崿F(xiàn)目標(biāo),我們?cè)O(shè)置 r ← rterm,它可以是一個(gè)常數(shù)或基于類(lèi)似于 A* 搜索的啟發(fā)式獎(jiǎng)勵(lì)估計(jì)。 ?
? 總結(jié) ?
本文介紹了一種通過(guò)理性逆向規(guī)劃進(jìn)行目標(biāo)識(shí)別和多模態(tài)軌跡預(yù)測(cè)的方法。通過(guò)將目標(biāo)識(shí)別與MCTS 計(jì)劃相結(jié)合,為自車(chē)生成優(yōu)化計(jì)劃。在模擬城市駕駛場(chǎng)景中的評(píng)估顯示準(zhǔn)確的目標(biāo)識(shí)別、提高的駕駛效率以及解釋預(yù)測(cè)和自我計(jì)劃的能力。??
審核編輯:劉清
評(píng)論
查看更多