摘要

本发明公开了一种基于强化学习利用动态奖励示例样本训练智能体的方法,包括步骤:1)从智能体中获取示例样本;2)用获取的示例样本初始化经验池,初始化训练网络,设定相关超参数值;3)用强化学习训练智能体,把训练过程中产生的样本也存入经验池;4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本;5)计算抽取样本的平均损失值,利用优化函数减小损失值来更新网络参数,若损失值减少到设定阈值,则深度强化学习停止,智能体训练完成,否则继续训练。本发明引入了动态奖励和优先级挑选机制,让智能体能够在很小数量的示例样本下自动挑选对学习有利的示例样本,从而提高了训练数据的利用率,极大的减少了训练智能体所需要的时间。