不确定性环境下基于进化算法的强化学习

作者：刘海涛; 洪炳熔; 朴松昊; 王雪梅部分可观察马尔可夫决策过程q学习memetic算法信度状态隐状态

摘要：不确定性和隐状态是目前强化学习所要面对的重要难题．本文提出了一种新的算法MA．Q．learning算法来求解带有这种不确定性的POMDP问题近似最优策略．利用Memetic算法来进化策略，而Q学习算法得到预测奖励来指出进化策略的适应度值．针对隐状态问题，通过记忆agent最近经历的确定性的有限步历史信息，与表示所有可能状态上的概率分布的信度状态相结合，共同决策当前的最优策略．利用一种混合搜索方法来提高搜索效率，其中调整因子被用于保持种群的多样性，并且指导组合式交叉操作与变异操作．在POMDP的Benchmark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法．

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

电子学报

《电子学报》（CN：11-2087/TN）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

电子学报相关期刊

不确定性环境下基于进化算法的强化学习

服务推荐

在线咨询

杂志订阅

期刊推荐

电子世界

中国电子商务

电子制作

佳木斯教育学院学报