摘要

针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架. 将其用于解决动态未知环境下的无人机路径规划问题,可实现无人机路径规划方案的快速收敛. 仿真结果表明,对算法的改进大幅提升网络训练效率,且在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供新思路。