2018年8月4月,北京理工大學大數據創新學習中心與中國科學院人工智能聯盟標準組聯合主辦了為期一天的專家講座活動------“2018深度強化學習:理論與應用”學術研討會。活動現場參與人數超過600人,在線同步觀看人數超過12萬人。學界與業界專家齊聚一堂,共同分享學習深度強化學習領域的最新研究成果。本文小編親臨現場,為您揭秘深度強化學習在自動駕駛技術中的應用詳細報告。
楊明珠 大連交通大學
今天我的演講內容主要分為四個部分:深度強化學習的理論、自動駕駛技術的現狀以及問題、深度強化學習在自動駕駛技術當中的應用及基于深度強化學習的禮讓自動駕駛研究。
首先是深度強化學習的理論,DQN做了深度的拓展,在離散型動作中應用效果比較好,但連續性動作當中表現效果并不好,所以做了一些改進和發展,如Double DQN等。
在連續型動作之中我個人比較喜歡DDPG的理念,原因有兩點:①之前學習到的經驗和Policy數據放到Replaybuffer當中,若之后的行為當中發現和之前相似的地方就會直接從Replaybuffer當中把之前的經驗和數據直接調用出來,這樣就可以避免在重復進行一種訓練或者采集的方式,節省時間、提高效率;②信任域的策略優化,簡稱TRPO,其實是對之前的算法做了改進,如對狀態分布進行處理,利用重要性采樣對動作分布進行的處理及在約束條件當中,把平均KL散度代替最大KL散度。
PPO也是最近比較熱門的一種深度強化學習算法,分為N個Actor,同時進行一些工作,這樣平均分配給很多個actor,合作來做的話效率會更高,而且會節省更多的時間。HER算法也是個人最喜歡的之前經過所有訓練,經驗總結出來,這個工作結束以后全部消化一遍,然后做第二次實驗或者工作的時候吸取了前面的經驗,然后再進行下面的訓練或者工作的話,就會避免一些錯誤,如無人駕駛撞車了,上次為什么撞車了呢?第二次需要避免這個錯誤,即不讓它撞車。
自動駕駛公司分為互聯網公司(如Google、百度、蘋果和Uber)及傳統車企(如福特和汽車配件的博世、大眾、通用、寶馬和奔馳等)。目前自動駕駛技術有三個問題:①感知方面也可以叫做信息的預處理,主要包括對圖像或者視頻信息的分割、檢測或者識別,如果識別的準確率更高可能會對之后的決策有比較好的優勢。運行當中也需要用到分割工作,如沿著車線走需要分割車線位置等。②決策方面其實是為了模仿人類,所以需要經過很多訓練,利用強化學習來做自動駕駛即像人考駕照的過程,學習怎樣開車,最后達到上路的水平。③控制方面就是故障安全機制,遇到危險的情況下來不及反應,就需要安全機制保障車內的人身安全,我們做自動駕駛也就是為了減少交通事故的發生率,讓更多的人可以安安全全地坐上自動駕駛汽車。
現在解決自動駕駛技術問題有兩種方法:一種是低精度定位+低精度地圖+高準確識別率,另一種是高精度定位+高精度地圖+更準確的識別率。
百度是有采集信息的車輛,其實也是比較辛苦的,需要采集所有全景的圖像來做上傳,最后再和百度地圖結合,這樣才能制定比較好的高精度地圖,這樣成本會非常的高。
關于深度強化學習在自動駕駛當中的應用,有幾個團隊:WAYVE團隊、本田研究院團隊、堪薩斯州立大學團隊、韓國漢陽大學團隊。Wayve是我個人比較欣賞的團隊,是由英國劍橋的博士畢業生創立的自動駕駛。
Wayve在今年7月發布的文章是《Learning to Drive in a Day》,僅僅用了一個前景攝像頭,就是車前方的視頻作為輸入的State,輸出的Action就是保證在同一車道內行進距離,行駛距離長,reward就大;行駛距離短,reward就短。結果是只用了單個攝像頭讓自動駕駛汽車在三十分鐘內學會了保持在同一車道內行駛二百五十米距離。這樣的方式我們是比較欣賞,但不太建議使用這種僅僅基于視覺的方式來做自動駕駛,因為開車肯定是眼觀六路耳聽八方,側面或者后面出現任何問題沒有辦法及時預警,沒有辦法及時處理,將來在上路的問題上肯定是有很大的缺陷。
賓夕法尼亞大學,本田研究院和喬治亞理工學院合作團隊是采用TTC模式,能夠提前知道岔路口的狀態,如何通過岔路口并且預測到達這個岔路口的時間是不是有危險,有沒有足夠的時間進行制動,TTC一般都是二點七秒,那個,該團隊存在的缺陷因為就是DQN存在的問題,即在離散動作當中表現優異,在連續性動作中表現不好,如果是在高速行駛的情況下如何應用,解決得并不是太好。
如何在對抗性極強的情況下,對碰撞避免機制的行為進行訓練,使系統進入不安全預警狀態,堪薩斯州立大學團隊提出了一種基于深度強化學習的新框架,用于對自動駕駛汽車的碰撞避免機制的行為進行基準測試,但是有一個缺點:無感知單元的預處理過程,并且沒有在連續性動作的決策任務。
我們將這些思想做了融合,提出了我們的一種新的自動駕駛技術,就是禮讓自動駕駛。我們的禮讓自動駕駛也是從三個方面來說:感知、決策和控制單元。什么叫做禮讓,包括”安全行車、禮讓三先”:先讓,先慢,先停,我不去撞別人,別人撞我的時候要先避讓一下,避免發生撞擊的情況。
感知部分是圍繞檢測、識別和圖像分割等方面,檢測當中我們用的最多的是YOLO算法,如果車速特別快的話也需要快速的檢測,然后再去做一些決策方面的,識別方面個人比較喜歡VCG模型,模型結構簡單而且,識別效果也是比較不錯的。分割當中有局部分割、語義分割和全景分割,現在應用最多的是語義分割和全景分割。感知模塊我們借鑒AndreasGeiger的思想,將地圖、三維傳感器、二維傳感器中的信息給到“世界模型”(world model),我們把感知部分所有信息匯總到一個地圖當中,做成一個Map,相當于解除了我們對于高精度地圖的高度依賴感,同時可以理解每個時刻的不同物體,相對于地面和道路這些位置,并且可以做之后的預測,相當于之后的路徑規劃問題。
我們采用DDPG算法改進自動駕駛決策的部分,同時加入禮讓的駕駛概念,就是我們在遇到問題的時候要首先想到先做避讓,也就是主動避讓的情況,連續動態的情況下可以讓自動駕駛汽車避免發生碰撞。
那么“禮讓”這一詞最早起源于機器人,但機器人的速度會比較慢,如果轉移到車輛方面其實還是有些難度的,而且高速當中的禮讓應該還是比較困難的問題,所以這也是我們日后工作的難點。決策方面我們可能會結合PPO與HER的思想,個人比較喜歡這兩種算法,所以會結合在里面,自動駕駛在高速運行的情況下也會需要一個快速決策的過程,所以選用PPO算法使得速度能夠提升。
駕駛一段時間以后我們會在第二次自動駕駛的時候總結第一次的經驗,因為人都是在經驗當中不斷積累,日后才能達到會開車的水平,所以我們也在說學習駕車的思想,然后通過HER促進自動駕駛車輛,總結之前的經驗,使其在之后的駕駛過程當中少犯錯誤,盡量避免發生不必要的危險。決策的過程當中個人還是比較喜歡Actor-Critic機制,通用reply buffer是我們對之前駕駛的經驗和其所得到的Policy的存儲過程,之后的駕駛任務當中遇到類似的問題直接可以采用這種經驗,不需要再做其它的改變或者訓練。
控制方面主要還是RSS模型上面做出一些改進,因為不可能只是關注到前方的避讓或者碰撞,也要關注后方,別人撞你的時候應該怎么辦,所以采用的是雙保險的機制,為了保證自動駕駛汽車的安全。當然如果傳感器檢測到有危險,或者是距離太近的情況下,自動駕駛汽車會直接進入安全機制,或者是作出禮讓的行為,因為我們貫穿始終的都是禮讓自動駕駛。
仿真平臺TORCS屬于3D賽車模擬游戲,個人比較喜歡通過這個來玩賽車游戲,做的效果是很好的,而且是世界通用的賽車游戲,也是相對有說服力,效果會比較好一點,但是場景單一,不適合在復雜場景下做訓練。
結論與展望:DQN出現最早,改良版本最多,離散情況效果最佳,原理相對較簡單,易于掌握與入門。DDPG是在DQN的基礎上進行改良,原理易懂,在連續動作中表現優異,適用于自動駕系統的決策研究。之后出現的A3C、PPO、HER等算法在連續動作中都有很好的應用與體現。目前,有很多人在將分層強化學習和逆向強化學習(模仿學習)應用于自動駕駛技術當中,效果有待考究實驗。
實際上,基于時間空間的博弈動力學研究表明,機器人在目前的實驗與發展狀態下不具備倫理判斷能力與決策功能。所以,將機器人置于倫理困境是超出了機器人研究的能力范圍。德國聯邦交通和數字基礎設施部委員會說過,自動駕駛系統需要更好地適應人之間的交流,也就是讓車輛或者機器適應我們的生活節奏,不是我們人去適應機器應該怎么做,或者是機器人之間的交流,總體來說就是以人為主,包括之后發生不可避免事故的時候主動的決定權,包括最終行為的決定權,必須要歸人來掌握,尤其是必須歸駕駛員掌握。吳焦蘇老師的一句話讓我印象深刻:“自動駕駛系統的安全性不能得到嚴格保證之前不應當被批準量產”。其實這也是對我們生命的負責任,因為如果自動駕駛車輛不能保證百分之百不發生事故,或者不能保證百分之百不會撞擊的話就不能上路,因為我們要對自己的生命負責,也要對他人生命負責。
-
自動駕駛
+關注
關注
784文章
13823瀏覽量
166486 -
深度學習
+關注
關注
73文章
5503瀏覽量
121182
原文標題:深度強化學習在自動駕駛技術中的應用——楊明珠
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論