摘要

深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域。为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的自主路径规划模型。针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法。通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间。对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性。