摘要

Q学习算法由于不需要先验知识即可学习,对于求解复杂的优化决策问题具有广泛的应用前景。本文针对当前空战目标分配算法的优缺点,提出了ABMS(agent-based modeling and simulation)中基于Q学习算法的空战目标分配方法。首先介绍了空战Agent建模;然后给出了Q学习算法应用于空战目标分配的方法流程,并严格定义了"状态-动作"对的选择规则,最后通过仿真实验证明了该方法的合理性和有效性。本文方法避免了对先验知识的依赖,并且脱离了局部最优陷阱。