摘要

为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。