Policy Gradient 算法的研究与实现

作者：刘俊利tensorflow机器学习强化学习policygradient算法

摘要：近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术,是强化学习的经典算法之一。以policy-based方法开始,然后介绍Policy Gradient算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

期刊咨询服务，助力升职加薪

立即咨询

现代计算机

《现代计算机》（CN：44-1415/TP）是一本有较高学术价值的大型半月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《现代计算机》是一本学科性、技术性较强的科技类学术期刊，作者读者群均面向计算机信息技术及应用研究开发设计生产的工程技术人员、大专院校师生及计算机爱好者。

杂志详情

服务推荐

现代计算机相关期刊

Policy Gradient 算法的研究与实现

期刊咨询服务，助力升职加薪

服务推荐

在线咨询

杂志订阅

期刊推荐

科技资讯

科技创新与应用

中小企业管理与科技

科技风