摘要

利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.

全文