HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 论文大全 策略梯度论文 列表
期刊分类
期刊收录
出版地区
一种解决连续空间问题的真实在线自然梯度AC算法第267-282页
关键词: 策略梯度  自然梯度  真实在线td  核方法  
2018年第02期 《软件学报》
基于值函数和策略梯度的深度强化学习综述第1406-1438页
关键词: 深度学习  强化学习  深度强化学习  值函数  策略梯度  机器学习  
2019年第06期 《计算机学报》
策略梯度强化学习中的最优回报基线第1021-1026页
关键词: 强化学习  策略梯度  部分可观测马氏决策过程  回报基线  
2005年第06期 《计算机学报》
增强学习中的直接策略搜索方法综述第16-24页
关键词: 增强学习  策略搜索  策略梯度  
2007年第01期 《智能系统学报》
基于增强学习的无人直升机姿态控制器设计第73-76页
关键词: 无人直升机  增强学习  自适应启发评价  策略梯度  pegasus  
2008年第02期 《弹箭与制导学报》
基于Dec-POMDP的认知无线电网络频谱接入算法第720-725页
关键词: 认知无线电  可观测马尔科夫决策过程  策略梯度  频谱分配  
基于TD(λ)的自然梯度强化学习算法第186-189页
关键词: 策略梯度  自然梯度  资格迹  
2010年第12期 《计算机科学》
基于MDP支持弹性服务质量的接入控制第16-21页
关键词: markov决策过程  接入控制  资源分配  弹性服务质量  策略梯度  
2012年第02期 《网络新媒体技术》
POMDP环境下交通信号自适应控制的策略梯度学习方法第51-56页
关键词: pomdp  强化学习  策略梯度  交通信号控制  
几种经典的策略梯度算法性能对比第6937-6941页
关键词: 强化学习  策略梯度  收敛性  仿真实验  
2014年第10X期 《电脑知识与技术》
连续空间的递归最小二乘行动者—评论家算法第1994-1997页
关键词: 强化学习  连续状态动作空间  递归最小二乘  策略梯度  高斯径向基函数  
2014年第07期 《计算机应用研究》