一種解決連續問題的真實在線自然梯度行動者-評論家算法
大小:0.85 MB 人氣: 2017-12-19 需要積分:0
標簽:
策略梯度作為一種能有效解決連續空間決策問題的方法被廣泛研究.然而,由于在策略估計過程中存在較大的方差,因此基于策略梯度的方法往往受到樣本利用率低、收斂速度幔等限制.針對該問題。提出了真實在線增量式自然梯度行動者一評論家算法(TOINAC).TOINAC算法采用優于傳統梯度的自然梯度,在真實在線時間差分(TOTD)算法的基礎上。提出了一種新型的向前觀點,改進了自然梯度行動者一評論家算法.在評論家部分,利用TOTD算法高效性的特點來估計值函數:在行動者部分。引入一種新的向前觀點來估計自然梯度。再利用資格跡將自然梯度估計變為在線估計。提高了自然梯度估計的準確性和算法的效率.將TOINAC算法與核方法以及正態策略分布結合,解決連續空間問題.最后。在平衡桿、Mountain Car、以及Acrobot等連續問題上進行了仿真實驗。驗證算法的有效性.
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%