改进DDPG算法在自动驾驶中的应用

张斌; 何明<sup>*</sup>; 陈希亮; 吴春晓; 刘斌; 周波

摘要

深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。

出版日期2019
单位中国人民解放军陆军工程大学

收藏分享被引(83) 浏览

更新时间：2024-04-10 04:41

改进DDPG算法在自动驾驶中的应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友