多步截断SARSA强化学习算法

免费注册

科研之友

微信

新浪微博

Facebook

作者：李春贵; 林海涛; 刘永信

来源：广西工学院学报, 2002, (01): 1-4.

摘要

提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算

更新时间：2018-08-07 03:46

科研之友科研之友机构版科创云

科研成果科研人员科研机构

帮助中心隐私政策服务条款

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号