HI,欢迎来到学术之家,学术咨询:400-888-7501 订阅咨询:400-888-7502 股权代码 102064

一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

作者:钟珊; 刘全; 傅启明; 龚声蓉; 董虎胜行动器评判器算法模型学习经验回放最优策略正则化自然梯度

摘要:行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机学报

《计算机学报》(月刊)创刊于1978年,由中国计算机学会与中国科学院计算技术研究所主办、科学出版社出版,以中文编辑形式与读者见面,同时以英文摘要形式向国际各大检索系统提供基本内容介绍。 一直在计算机领域保持着领先水平,刊登的文章被国际多种著名检索刊物所收录.包括《中国学术期刊文摘》,美国《EI》,英国《SA》,美国《数学评论》,日本《科技文献速报》,俄罗斯《文摘杂志》等。 《计算机学报》刊登的内容覆盖计算机领域的各个学科,以论文、技术报告、短文、研究简报、综论等形式报道以下方面的科研成果:计算机科学理论、计算...

杂志详情

相关期刊
×

说明:关注微信公众号,免费领取下载码。

 

发送任意关键词,比如“下载”,即可下载该篇文章。

PDF文件建议使用adobe或Office打开

作品认领

本站文章皆为用户上传,可能会出现作者遗漏,为促进学术资源开放获取,作者完成个人作品认领,即可获得平台文献免费下载权限。

详询在线客服 ×

被举报文档标题:一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

被举报文档地址:


我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

举报理由:
   (必填)