摘要

针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决非凸障碍环境下多智能体围捕问题中,经验池数据利用低的问题,提出两种改善经验池数据利用率的方法,并通过设计合理的围捕奖励函数使得智能体能在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加的更快,能更快的完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.1%;而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。