摘要

本申请提供一种飞行器控制方法、装置、设备及计算机程序产品,该方法包括:根据飞行器模型中的模型参数,确定飞行器的观测量数据和智能体动作数据;基于观测量数据或/和智能体动作数据,对actor网络和critic网络进行训练,输出确定性策略和动作值函数;通过深度确定性策略梯度算法对actor网络参数和critic网络参数进行更新,得到最优actor网络和最优critic网络;基于最优actor网络和最优critic网络构建在线控制器,通过在线控制器对飞行器进行控制。本申请实施例提供的飞行器控制方法通过深度确定性策略梯度算法离线训练在线控制器,使得在线控制器具有良好的适应性和鲁棒性,实现飞行器精准控制。