摘要

为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q学习算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q学习算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明,改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。

全文