摘要

Q-Learning算法是一种基于价值函数的强化学习方法。传统的Q-Learning算法迭代效率低且容易陷入局部收敛,针对该劣势改进了算法,引入A*算法和动态搜索因子ε。将改进后的动态A*-Q-Learning算法应用于三维复杂环境下无人机的航迹规划,分析无人机航迹规划结果的回报函数、探索步数和运行效率。结果表明,改进后的算法可使无人机在复杂环境下具有很强的自适应性;同时,动态搜索因子ε能有效地避免智能体在搜寻过程中陷入局部最优的状况,在复杂地形中能寻找到更优的路径。

全文