摘要

本文主要研究了强化学习在机器人足球比赛半场进攻中的应用,机器人足球比赛环境状态是一个连续的状态空间,利用强化学习必须将状态空间离散化,文中利用给定的状态变量来描述坏境状态。为了克服机器人单独更新值函数的缺点,采用机器人之间通信的方式来更新所有进攻机器人的值函数,最后将算法在4V5的机器人比赛环境中进行了实验,取得了理想的效果。