改进MADDPG算法的非凸环境下多智能体自组织协同围捕

张红强; 石佳航<sup>*</sup>; 吴亮红; 王汐; 左词立; 陈祖国; 刘朝华; 陈磊

摘要

针对多智能体在非凸环境下的围捕效率问题，提出基于改进经验回放的多智能体强化学习算法。利用残差网络（ResNet）来改善网络退化问题，并与多智能体深度确定性策略梯度算法（MADDPG）相结合，提出了RW-MADDPG算法。为解决非凸障碍环境下多智能体围捕问题中，经验池数据利用低的问题，提出两种改善经验池数据利用率的方法，并通过设计合理的围捕奖励函数使得智能体能在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验，实验结果表明，该算法在训练阶段奖励增加的更快，能更快的完成围捕任务，相比MADDPG算法静态围捕环境下训练时间缩短18.5%，动态环境下训练时间缩短49.1%；而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。

出版日期2023
单位湖南科技大学

收藏分享被引浏览

更新时间：2024-01-12 07:21

改进MADDPG算法的非凸环境下多智能体自组织协同围捕

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友