在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

決策規劃:行為決策常用算法

3D視覺工坊 ? 來源:十一號組織 ? 2023-04-12 10:09 ? 次閱讀

作為L4級自動駕駛的優秀代表Robotaxi,部分人可能已經在自己的城市欣賞過他們不羈的造型,好奇心強烈的可能都已經體驗過他們的無人“推背”服務。作為一個占有天時地利優勢的從業人員,我時常在周末選一個人和的時間,叫個免費Robotaxi去超市買個菜。

剛開始幾次乘坐,我的注意力全都放在安全員的雙手,觀察其是否在接管;過了一段時間,我的注意力轉移到中控大屏,觀察其夢幻般的交互方式;而現在,我的注意力轉移到了智能上,觀察其在道路上的行為決策是否足夠聰明。

而這一觀察,竟真總結出不少共性問題。比如十字路口左轉,各家Robotaxi總是表現的十分小心謹慎,人類司機一腳油門過去的場景,Robotaxi總是再等等、再看看。且不同十字路口同一廠家的Robotaxi左轉的策略基本一致,完全沒有人類司機面對不同十字路口、不同交通流、不同天氣環境時的“隨機應變”。

面對復雜多變場景時自動駕駛行為決策表現出來的小心謹慎,像極了人類進入一個新環境時采取的猥瑣發育策略。但在自動駕駛終局到來的那天,自動駕駛的決策規劃能否像人類一樣,在洞悉了人情社會的生活法則之后,做到“見人說人話”、“見人下飯”呢?

在讓自動駕駛車輛的行為決策變得越來越像老司機的努力過程中,主要誕生了基于規則和基于學習的兩大類行為決策方法。

基于規則的方法 在基于規則的方法中,通過對自動駕駛車輛的駕駛行為進行劃分,并基于感知環境、交通規則等信息建立駕駛行為規則庫。自動駕駛車輛在行駛過程中,實時獲取交通環境、交通規則等信息,并與駕駛行為規則庫中的經驗知識進行匹配,進而推理決策出下一時刻的合理自動駕駛行為。

正如全局路徑規劃的前提是地圖一樣,自動駕駛行為分析也成為基于規則的行為決策的前提。不同應用場景下的自動駕駛行為不完全相同,以高速主干路上的L4自動駕駛卡車為例,其自動駕駛行為可簡單分解為單車道巡航、自主變道、自主避障三個典型行為。

單車道巡航是卡車L4自動駕駛系統激活后的默認狀態,車道保持的同時進行自適應巡航。此駕駛行為還可以細分定速巡航、跟車巡航等子行為,而跟車巡航子行為還可以細分為加速、加速等子子行為,真是子子孫孫無窮盡也。

自主變道是在變道場景(避障變道場景、主干路變窄變道場景等)發生及變道空間(與前車和后車的距離、時間)滿足后進行左/右變道。自主避障是在前方出現緊急危險情況且不具備自主變道條件時,采取的緊急制動行為,避免與前方障礙物或車輛發生碰撞。其均可以繼續細分,此處不再展開。

上面列舉的駕駛行為之間不是獨立的,而是相互關聯的,在一定條件滿足后可以進行實時切換,從而支撐起L4自動駕駛卡車在高速主干路上的自由自在。現將例子中的三種駕駛行為之間的切換條件簡單匯總如表2,真實情況比這嚴謹、復雜的多,此處僅為后文解釋基于規則的算法所用。

表2 狀態間的跳轉事件

29ceaa18-d8be-11ed-bfe3-dac502259ad0.png

在基于規則的方法中,有限狀態機(FiniteStateMaechine,FSM)成為最具有代表性的方法。2007年斯坦福大學參加DARPA城市挑戰賽時的無人車“Junior”,其行為決策采用的就是有限狀態機方法。

有限狀態機是一種離散的數學模型,也正好符合自動駕駛行為決策的非連續特點,主要用來描述對象生命周期內的各種狀態以及如何響應來自外界的各種事件。有限狀態機包含四大要素:狀態、事件、動作和轉移。事件發生后,對象產生相應的動作,從而引起狀態的轉移,轉移到新狀態或維持當前狀態。

我們將上述駕駛行為定義為有限狀態機的狀態,每個狀態之間在滿足一定的事件(或條件)后,自動駕駛車輛執行一定的動作后,就可以轉移到新的狀態。比如單車道巡航狀態下,前方車輛低速行駛,自車在判斷旁邊車道滿足變道條件要求后,切換到自主變道狀態。自主變道完成后,系統再次回到單車道巡航狀態。

結合表2中的切換條件,各個狀態在滿足一定事件(或條件)后的狀態跳轉示意圖如圖25所示。

29d73d2c-d8be-11ed-bfe3-dac502259ad0.png

圖25 狀態跳轉示意圖

基于有限狀態機理論構建的智能車輛自動駕駛行為決策系統,可將復雜的自動駕駛過程分解為有限個自動駕駛駕駛行為,邏輯推理清晰、應用簡單、實用性好等特點,使其成為當前自動駕駛領域目前最廣泛使用的行為決策方法。

但該方法沒有考慮環境的動態性、不確定性以及車輛運動學以及動力學特性對駕駛行為決策的影響,因此多適用于簡單場景下,很難勝任具有豐富結構化特征的城區道路環境下的行為決策任務。

基于學習的方法

行為決策水平直接決定了車輛的智能化水平,同時伴隨著自動駕駛等級的提高,人們不僅要求其在復雜場景下做出正確的決策,還要求在無法預測的突發情況下做出正確的決策,更過分的是還要求在無法完全感知周圍交通環境的情況下,進行合理的決策。

上文介紹的基于規則的行為決策方法依靠專家經驗搭建的駕駛行為規則庫,但是由于人類經驗的有限性,智能性不足成為基于規則的行為決策方法的最大制約,復雜交通工況的事故率約為人類駕駛員的百倍以上。鑒于此,科研工作者開始探索基于學習的方法,并在此基礎上了誕生了數據驅動型學習方法和強化學習方法。

數據驅動型學習是一種依靠自然駕駛數據直接擬合神經網絡模型的方法,首先用提前采集到的老司機開車時的自然駕駛數據訓練神經網絡模型,訓練的目標是讓自動駕駛行為決策水平接近老司機。而后將訓練好的算法模型部署到車上,此時車輛的行為決策就像老司機一樣,穿行在大街小巷。讀者可參見端到端自動駕駛章節中介紹的NVIDIA demo案例。

強化學習方法通過讓智能體(行為決策主體)在交互環境中以試錯方式運行,并基于每一步行動后環境給予的反饋(獎勵或懲罰),來不斷調整智能體行為,從而實現特定目的或使得整體行動收益最大。通過這種試錯式學習,智能體能夠在動態環境中自己作出一系列行為決策,既不需要人為干預,也不需要借助顯式編程來執行任務。

強化學習可能不是每個人都聽過,但DeepMind開發的圍棋智能AlphaGo(阿爾法狗),2016年3月戰勝世界圍棋冠軍李世石,2017年5月后又戰勝圍棋世界排名第一柯潔的事,大家應該都有所耳聞。更過分的是,半年后DeepMind在發布的新一代圍棋智能AlphaZero(阿爾法狗蛋),通過21天的閉關修煉,就戰勝了家族出現的各種狗子們,成功當選狗蛋之王。

而賦予AlphaGo及AlphaZero戰勝人類棋手的魔法正是強化學習,機器學習的一種。機器學習目前有三大派別:監督學習、無監督學習和強化學習。監督學習算法基于歸納推理,通過使用有標記的數據進行訓練,以執行分類或回歸;無監督學習一般應用于未標記數據的密度估計或聚類;

強化學習自成一派,通過讓智能體在交互環境中以試錯方式運行,并基于每一步行動后環境給予的反饋(獎勵或懲罰),來不斷調整智能體行為,從而實現特定目的或使得整體行動收益最大。通過這種試錯式學習,智能體能夠在動態環境中自己作出一系列決策,既不需要人為干預,也不需要借助顯式編程來執行任務。

這像極了馬戲團訓練各種動物的過程,馴獸師一個抬手動作(環境),動物(智能體)若完成相應動作,則會獲得美味的食物(正反饋),若沒有完成相應動作,食物可能換成了皮鞭(負反饋)。時間一久,動物就學會基于馴獸師不同的手勢完成不同動作,來使自己獲得最多數量的美食。

大道至簡,強化學習亦如此。一個戰勝人類圍棋冠軍的“智能”也僅由五部分組成:智能體(Agent)、環境(Environment)、狀態(State)、行動(Action)和獎勵(Reward)。強化學習系統架構如圖26所示,結合自動駕駛代客泊車中的泊入功能,我們介紹一下各組成的定義及作用。

29dd5b08-d8be-11ed-bfe3-dac502259ad0.png

圖26 強化學習系統架構

代客泊車泊入功能的追求非常清晰,就是在不發生碰撞的前提下,實現空閑停車位的快速泊入功能。這個過程中,承載強化學習算法的控制器(域控制器/中央計算單元)就是智能體,也是強化學習訓練的主體。智能體之外的整個泊車場景都是環境,包括停車場中的立柱、車輛、行人、光照等。

訓練開始后,智能體實時從車載傳感器(激光雷達、相機、IMU、超聲波雷達等)讀取環境狀態,并基于當前的環境狀態,采取相應的轉向、制動和加速行動。如果基于當前環境狀態采用的行動,是有利于車輛快速泊入,則智能體會得到一個獎勵,反之則會得到一個懲罰。

在獎勵和懲罰的不斷刺激下,智能體學會了適應環境,學會了下次看到空閑車位時可以一把倒入,學會了面對不同車位類型時采取不同的風騷走位。

從上述例子,我們也可以總結出訓練出一個優秀的“智能”,大概有如下幾個步驟:

(1)創建環境。定義智能體可以學習的環境,包括智能體和環境之間的接口。環境可以是仿真模型,也可以是真實的物理系統。仿真環境通常是不錯的起點,一是安全,二是可以試驗。

(2)定義獎勵。指定智能體用于根據任務目標衡量其性能的獎勵信號,以及如何根據環境計算該信號。可能需要經過數次迭代才能實現正確的獎勵塑造。

(3)創建智能體。智能體由策略和訓練算法組成,因此您需要:

(a)選擇一種表示策略的方式(例如,使用神經網絡或查找表)。思考如何構造參數和邏輯,由此構成智能體的決策部分。

(b)選擇合適的訓練算法。大多數現代強化學習算法依賴于神經網絡,因為后者非常適合處理大型狀態/動作空間和復雜問題。

(4)訓練和驗證智能體。設置訓練選項(如停止條件)并訓練智能體以調整策略。要驗證經過訓練的策略,最簡單的方法是仿真。

(5)部署策略。使用生成的 C/C++ 或 CUDA 代碼等部署經過訓練的策略表示。此時無需擔心智能體和訓練算法;策略是獨立的決策系統。

強化學習方法除了具有提高行為決策智能水平的能力,還具備合并決策和控制兩個任務到一個整體、進行統一求解的能力。將決策與控制進行合并,這樣既發揮了強化學習的求解優勢,又能進一步提高自動駕駛系統的智能性。實際上,人類駕駛員也是具有很強的整體性的,我們很難區分人類的行為中哪一部分是自主決策,哪一部分是運動控制。

現階段強化學習方法的應用還處在摸索階段,應用在自動駕駛的潛力還沒有被完全發掘出來,這讓我想起了母校的一句校歌:“能不奮勉乎吾曹?”

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4772

    瀏覽量

    100824
  • 算法
    +關注

    關注

    23

    文章

    4615

    瀏覽量

    92962
  • 自動駕駛
    +關注

    關注

    784

    文章

    13835

    瀏覽量

    166516

原文標題:決策規劃:行為決策常用算法

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    粒子群算法決策變量和適應度函數的約束問題

    本人最近在做粒子群算法的相關研究,遇到如下問題:要求決策變量為整數(0或1),初始化時已隨機設置成0或1的形式,決策變量范圍設置成(0-1間),在更新過程中如何對速度和位置進行設置呢,不設置的話還是會隨機產生一些數,比如0.23
    發表于 06-10 11:01

    關于決策樹,這些知識點不可錯過

    的一種算法。它既是分類算法,也是回歸算法,還可以用在隨機森林中。咱們學計算機的同學經常敲if 、else if、else其實就已經在用到決策樹的思想了。
    發表于 05-23 09:38

    機器學習的決策樹介紹

    機器學習——決策算法分析
    發表于 04-02 11:48

    基于決策論的Agent個性化行為選擇

    Agent 不同的主觀態度對行為策略的偏好具有重要影響,但Agent 的個性化態度難于在量化或符號化的數值決策模型中體現。該文參照定性決策理論,在現有效用最大化決策模型基礎
    發表于 04-18 08:39 ?7次下載

    一個基于粗集的決策樹規則提取算法

    一個基于粗集的決策樹規則提取算法:摘要:決策樹是數據挖掘任務中分類的常用方法。在構造決策樹的過程中,分離屬性的選擇標準直接影響到分類的效果,
    發表于 10-10 15:13 ?12次下載

    基于人工情感的Q_學習算法在機器人行為決策中的應用_谷學靜

    基于人工情感的Q_學習算法在機器人行為決策中的應用_谷學靜
    發表于 01-12 19:56 ?1次下載

    無人駕駛汽車決策技術

    ,以及控制規劃等多個模塊的協同配合工作。作者認為最關鍵的部分是感知預測和決策控制規劃的緊密配合。狹義上的決策規劃控制部分,包含了無人車行為
    發表于 09-28 19:43 ?0次下載
    無人駕駛汽車<b class='flag-5'>決策</b>技術

    無人駕駛汽車決策技術詳解

    部分,包含了無人車行為決策(Behavior Decision)、動作規劃(Motion Planning), 以及反饋控制(Feedback Control)這三個模塊。
    發表于 11-12 11:30 ?1.3w次閱讀
    無人駕駛汽車<b class='flag-5'>決策</b>技術詳解

    使決策樹規模最小化算法

    包含多個決策值,多個決策屬性用一個集合表示。針對已有的啟發式算法,如貪心算法,由于性能不穩定的特點,該算法獲得的
    發表于 12-05 15:47 ?0次下載
    使<b class='flag-5'>決策</b>樹規模最小化<b class='flag-5'>算法</b>

    配電網規劃決策中的可計算性問題研究

    規劃決策的標準數學模型和算法公式。利用該數學模型和算法對66 kV變電站的供電半徑規劃進行建模計算。計算結果表明,基于可接受偏差的配電網
    發表于 03-10 10:02 ?0次下載

    決策樹的構成要素及算法

    決策樹是一種解決分類問題的算法決策算法采用樹形結構,使用層層推理來實現最終的分類。
    發表于 08-27 09:52 ?4385次閱讀

    強化學習與智能駕駛決策規劃

    本文介紹了強化學習與智能駕駛決策規劃。智能駕駛中的決策規劃模塊負責將感知模塊所得到的環境信息轉化成具體的駕駛策略,從而指引車輛安全、穩定的行駛。真實的駕駛場景往往具有高度的復雜性及不確
    的頭像 發表于 02-08 14:05 ?1876次閱讀

    決策規劃系列:運動規劃常用算法

    有了全局路徑參考信息,有了局部環境信息了,有了行為決策模塊輸入的決策信息,下一步自然而然的就要進行運動規劃,從而生成一條局部的更加具體的行駛軌跡,并且這條軌跡要滿足安全性和舒適性要求。
    的頭像 發表于 04-17 09:46 ?1045次閱讀

    自動駕駛決策概況

    文章目錄1. 第一章行為決策在自動駕駛系統架構中的位置 2. 行為決策算法的種類 2.1 基于規則的決策
    發表于 06-01 16:24 ?0次下載
    自動駕駛<b class='flag-5'>決策</b>概況

    自動駕駛決策規劃算法第一章筆記

    第一章 自動駕駛決策規劃算法數學基礎 第一節:決策規劃算法的地位和作用 該筆記來自b站up主(偶像):憨厚老實的老王 視頻鏈接主頁 第二節:為什么
    發表于 06-02 14:17 ?0次下載
    自動駕駛<b class='flag-5'>決策</b><b class='flag-5'>規劃算法</b>第一章筆記
    主站蜘蛛池模板: 美妇乱人伦性| 男男h啪肉np文总受| 国产成人悠悠影院| 精品国产第一国产综合精品gif| 四虎影院在线免费播放| 亚洲bt天堂| 色婷婷欧美| 男女爱爱视频免费看| 久久香蕉综合色一综合色88| 上一篇26p国模| 在线种子资源网| 午夜老司机永久免费看片| 这里只有精品在线| 凸输偷窥xxxx自由视频| 日本电影在线观看黄| 久久偷窥视频| wwwxx在线| 日本特黄视频| 性欧美丰满xxxx性久久久| 亚洲91色| 五月婷婷伊人网| 六月综合| 夜间免费小视频| 国产福利久久| 热99精品| 色噜噜久久| 国产精品怡红院永久免费| 天天色国产| 色拍拍综合网| 天天干2018| 91学院派女神| 2o18国产大陆天天弄| 丁香亚洲综合五月天婷婷| 一区二区三区网站| 亚洲人成电影在线| 免费能看的黄色网址| 免费一级特黄| 一级视频在线免费观看| 精品国产午夜久久久久九九| 视频1区| 色多多www网站|