在作為人工智能核心技術的機器學習領域, 強化學習是一類強調機器在與環境的交互過程中進行學習的方法, 其重要分支之一的自適應評判技術與動態規劃及最優化設計密切相關. 為了有效地求解復雜動態系統的優化控制問題, 結合自適應評判, 動態規劃和人工神經網絡產生的自適應動態規劃方法已經得到廣泛關注, 特別在考慮不確定因素和外部擾動時的魯棒自適應評判控制方面取得了很大進展, 并被認為是構建智能學習系統和實現真正類腦智能的必要途徑. 本文對基于智能學習的魯棒自適應評判控制理論與主要方法進行梳理, 包括自學習魯棒鎮定, 自適應軌跡跟蹤, 事件驅動魯棒控制, 以及自適應H-infinity控制設計等,并涵蓋關于自適應評判系統穩定性, 收斂性, 最優性以及魯棒性的分析. 同時, 結合人工智能, 大數據, 深度學習和知識自動化等新技術, 也對魯棒自適應評判控制的發展前景進行探討.
利用自適應動態規劃方法進行智能優化決策的基礎是最優控制設計. 關于線性系統的最優調節器設計, 在控制理論和控制工程界已經有很多成熟的方法. 然而, 對于一般的非線性系統, 獲得Hamilton-Jacobi-Bellman方程的解析解并不是一件容易的事情. 此類系統的最優控制設計相當困難, 但是卻相當重要, 因此引起了人們的廣泛重視. 簡單來說, 自適應動態規劃是一種基于智能學習思想的新興方法, 可以為復雜動態系統提供有效的優化控制解決方案. 在過去的二十年中, 自適應動態規劃在求解離散時間和連續時間系統的自適應最優控制問題中得到了廣泛的應用.
但是, 由于實際中的控制系統總是受著模型不確定性, 外界擾動或其他變化的影響. 我們在控制器設計過程中必須考慮這些因素, 以避免閉環系統性能的惡化, 提高被控系統的魯棒性能. 關于不確定系統的魯棒控制問題, 控制學者們已經取得了很多研究成果, 近幾年來, 利用自適應評判思想進行魯棒控制設計逐漸成為自適應動態規劃領域的研究熱點之一, 有很多方法陸續被提出, 這里將它們統稱為魯棒自適應評判控制. 本文主要給出魯棒自適應評判控制的最新研究進展.
越來越多的證據表明, 最優性在理解大腦智能的研究中具有重要作用. 考慮以在線方式實現對具有不確定性和未知動態的復雜系統進行最優決策和智能控制這一宗旨, 自適應動態規劃可以為智能系統和類腦智能研究做出相當大的貢獻. 正如其創始人Werbos博士指出的, 自適應動態規劃很可能是實現真正意義類腦智能的關鍵方法. 因此, 為降低計算量和通信負擔的近似動態規劃解決方案, 包括保證穩定性, 收斂性, 最優性和魯棒性的研究仍然需要大批學者的努力, 其中, 基于智能學習的魯棒自適應評判控制設計也一定能夠取得更大的進展.
-
人工智能
+關注
關注
1796文章
47643瀏覽量
239843 -
機器學習
+關注
關注
66文章
8438瀏覽量
132969 -
魯棒
+關注
關注
0文章
45瀏覽量
11675
發布評論請先 登錄
相關推薦
評論