改进行为克隆与DDPG的无人驾驶决策模型

李伟东; 黄振柱; 何精武; 马草原; 葛程

摘要

无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题，本文使用优先经验回放算法对行为克隆进行改进，提升模型对演示数据集的拟合能力；原DDPG(Deep deterministic policy gradient)算法存在探索效率低下问题，使用经验池分离以及随机网络蒸馏技术(Random Network Distillation， RND)对DDPG算法进行改进，提升DDPG算法训练效率。使用改进后的算法进行联合训练，减少DDPG训练前期的无用探索。通过TORCS(The Open Racing Car Simulator)仿真平台验证，实验结果表明该方法在相同的训练次数内，能够探索出更稳定的道路保持、速度保持和避障能力。

出版日期2023
单位大连理工大学

收藏分享被引浏览

更新时间：2024-01-09 00:45

改进行为克隆与DDPG的无人驾驶决策模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友