传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法.