基于强化学习的深空探测器自主任务规划方法

毛维杨; 王彬<sup>*</sup>; 柳景兴; 熊新

doi:10.15982/j.issn.2096-9287.2023.20220049

摘要

针对深空探测器自主任务规划多约束的需求，提出了基于动态奖励的强化学习深空探测器任务自主规划模型构建方法，建立了深空探测器智能体的交互环境，构建了策略网络和融合资源、时间以及时序约束的损失函数，并提出动态奖励机制对传统策略梯度学习方法进行了改进。仿真实验结果表明：该方法可实现自主任务规划，规划成功率和规划效率相比静态奖励策略梯度算法有明显的提升，并且能在任意状态下开始规划而无需改变模型结构，提高了对不确定规划任务的适应性。该方法为深空探测器自主任务规划与决策提供了一种新的解决方案。

出版日期2023
单位自动化学院; 昆明理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 15:42

基于强化学习的深空探测器自主任务规划方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友