策略梯度强化学习中的最优回报基线

作者：王学宁; 徐昕; 吴涛; 贺汉根强化学习策略梯度部分可观测马氏决策过程回报基线

摘要：尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法--Istate-Grbp算法:在策略梯度算法Istate-GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate-GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机学报

《计算机学报》（CN：11-1826/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

计算机学报相关期刊

策略梯度强化学习中的最优回报基线

服务推荐

在线咨询

杂志订阅

期刊推荐

佳木斯教育学院学报

网友世界

计算机光盘软件与应用

计算机与网络