摘要

近年来,强化学习技术在连续决策问题上展现出了强大的能力,成为机器学习领域的一个重要分支.通过强化学习技术在多智能体系统下的发展和研究,多智能体强化学习技术有望成为群体智能行为涌现的关键技术手段,但在现阶段仍有诸多科学问题亟待解决.在多智能体强化学习领域,如何提高智能体在协作场景下的合作能力一直是一个热门研究话题.通信被认为是实现多智能体高水平协作的重要元素,因此有不少研究尝试从通信的角度入手,让智能体通过交流来实现更好的协作.现有的大部分与通信有关的多智能体强化学习领域的工作关注于部分可观测问题,在这些工作中智能体通过通信信道共享了部分局部观测.最新的一些研究开始关注如何让智能体通过共享意图来实现更好的协作.然而,在不加限制的意图共享框架下,若智能体的最终行为与原先的意图不符,则可能会对其它智能体产生误导,此时引入通信反而产生了负作用.因此需要一个新的多智能体意图共享框架,在有效利用意图信息的同时避免出现智能体间的意图误导.针对上述问题,本文基于交流意图的思想,提出了一个新的多智能体强化学习意图通信框架2SIS.在2SIS框架下,智能体在决策前需要进行两次通信,第一次通信传播意图信息,第二次通信传播意图依赖关系.两次通信结束后每个智能体各自建立起意图依赖关系图,为了避免出现意图误导,对于意图依赖关系图上被依赖的智能体, 2SIS禁止其基于其它智能体的意图进行重新决策,其最终决策即为其初始意图,仅有不被依赖的智能体被允许基于意图信息重新决策. 2SIS可以与任意基于值函数的强化学习算法结合实现训练.在2SIS框架下训练的智能体能够学会如何正确地建立意图依赖关系从而实现单向的意图传播,并且不存在意图误导问题.我们选用较具代表性的Double DQN算法作为基算法,在两个多智能体场景下验证了所提出方法的有效性.有效性实验结果表明,相比于无通信以及广播式通信意图方式训练的智能体, 2SIS框架下训练的智能体在收敛速度以及最终累积奖赏上有明显提升.为了验证性能的提升来自于本文提出的方法,我们额外组织了消融实验,对方法的关键部分进行了控制变量,消融实验的结果说明2SIS框架下训练的智能体能够正确选择依赖对象是性能提升的关键.最后我们组织了参数实验来说明本文引入的超参数会对训练过程产生怎样的影响以及如何为该参数选取一个合适的值.

  • 出版日期2023
  • 单位南京大学; 计算机软件新技术国家重点实验室