摘要

本文提出一种基于投票的多智能体强化学习方法,使球队在比赛中学会协作,自动适应环境,提高实时性和进球数.首先通过定义称为策略的联合行为,将协作问题转化为对策略的学习,简化问题的处理;然后对球场进行划分,以区域表示位置,有效减少了状态空间维数,加快了学习速度;接下来通过区分环境状态并只考虑协作状态,减小状态空间,进一步提高了学习速度;并使用投票的方式综合各个队员的决策,达到协作的目的.最后通过实验结果表明了该方法的正确性和有效性.