改进Q学习算法在多智能体强化学习中的应用

赵德京; 马洪聪; 王家曜; 周维庆

doi:10.14016/j.cnki.1001-9227.2022.06.013

摘要

Q-learning作为一种经典的强化学习算法，其在离散状态下存在计算量高、收敛速度慢等问题。Speedy Q-learning是Q-learning的变种，目的是解决Q-learning算法收敛速度慢问题。为解决多智能体强化学习中“维数灾”问题，在Speedy Q-learning算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning, ASSQ)算法。该算法采用集中训练-分散执行(centralized training with decentralized execution, CTDE)的框架，将上一迭代步更新后的Q值作为下一状态的最大Q值，有效降低了Q值的比较次数，整体上提升了算法的收敛速度。为减少学习阶段计算量，算法在集中训练阶段求取下一状态最大Q值时，并没有遍历所有联合动作Q值，而只在联合动作空间上进行部分采样。在动作选择和执行阶段，每个智能体又根据学习到的策略独立选择动作，从而有效提高了算法的学习效率。通过在目标运输任务上验证，ASSQ算法能够以100%的成功率学习到最优联合策略，且计算量明显少于Q-learning算法。

出版日期2022
单位青岛大学; 自动化学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 13:18

改进Q学习算法在多智能体强化学习中的应用

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友