MAS中基于多奖惩标准的Q学习算法研究

乔林; 罗杰

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

MAS中基于多奖惩标准的Q学习算法研究

作者：乔林; 罗杰

来源：计算机科学, 2012, S1: 235-237.

摘要

传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system(MAS)面对的复杂变化的环境与状态,相反可能还会制约学习效率。提出的基于多奖惩标准的Q学习算法能够较好地适应复杂变化的状态与环境,分阶段完成任务,不同阶段使用不同的奖惩标准,能够快速地完成阶段目标。以三维世界中的围捕问题为仿真平台,增加了围捕的难度和状态环境的复杂性。仿真实验表明,基于多奖惩标准的Q学习算法能够灵活地适应复杂变化的环境与状态,高效地完成学习任务。

出版日期2012
单位南京邮电大学

收藏分享被引浏览

更新时间：2018-08-03 03:56

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号