摘要

DQN算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的“维数灾难”问题,因此被广泛应用于移动机器人的路径规划中。但传统DQN算法的网络收敛速度较慢,路径规划的效果较差,往往难以在较短的训练回合内获取最优路径。为了解决上述问题,本文提出了一种改进的ERDQN算法。首先,通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下次出现该状态的概率就越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少网络收敛的训练回合。其次,根据机器人移动方向和与目标点的距离,重新设计了奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值大小。从而使机器人能够在避开障碍物的前提下规划出更优的路径。实验结果显示,ERDQN相较于DQN算法,平均得分提高了18.9%,规划出的路径长度减少了20.1%,收敛回合减少了约500回合。由此证明,相比于传统DQN算法,该算法不仅能够有效提高网络收敛的速度,而且在路径规划的性能上也有一定提升。

全文