基于actor-critic框架的在线积分强化学习算法研究

蔡军; 苟文耀<sup>*</sup>; 刘颜

doi:10.13382/j.jemi.B2206002

摘要

针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题，提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先，构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律，以拟合二次型跟踪控制性能指标函数。其次，构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律，补偿动力学系统中的未知项。最后，通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数，行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明，该算法不仅可以实现对恒定速度以及时变速度的跟踪，还可以在嵌入式平台上进行实现。

出版日期2023
单位自动化学院; 重庆邮电大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-18 16:13

基于actor-critic框架的在线积分强化学习算法研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友