基于DRL和轨迹优化的多机器人导航和编队维护

作者:朱继伟; 张隆源; 王冀; 罗佳宁; 李伟*
来源:传感器与微系统, 2023, 42(09): 129-132.
DOI:10.13873/J.1000-9787(2023)09-0129-04

摘要

本文提出了一种基于深度强化学习(DRL)和轨迹优化的方法来实现避障导航同时保持编队。定义了基于图论的可微队形度量,并将其与DRL相结合,提出了一种新的近端策略优化联合轨迹优化(PPOTO)的算法。多个机器人共享策略,通过由DRL得到的马尔可夫决策模型生成预测轨迹,并通过编队度量进行优化,最终由机器人对该轨迹进行跟踪。在生成的随机地图上进行了大量的测试实验,结果表明:所提方法可以实现多机器人的编队和导航的任务,并且相对端到端的PPO算法有着明显的性能提升。

全文