摘要

本发明公开了一种基于强化学习的取送货车辆路径规划方法。所述方法包括以下步骤:构建基于A2C框架的强化学习模型及其优化目标;初始化强化学习模型所有的参数值,随机生成数据集;构建强化学习模型的训练过程,将生成的数据集输入强化学习模型,计算每一轮训练结果的奖励值;根据损失值采用基于策略梯度的强化学习方法对强化学习模型进行优化;设置最大训练轮数,重复训练得到训练完成的强化学习模型,采用训练完成的强化学习模型进行取送货车辆路径规划。本发明不同于传统的精确算法和启发式算法,能够快速求解大规模路径规划问题。