摘要

本发明公开了一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,按如下步骤进行:步骤1、定义T-k为系统第k个决策时刻,初始化决策时刻T-k=0,k=0;步骤2、提前计算出所有状态下9种启发式规则对应的批量加工方案,在删除多余相同方案后,将其作为各状态下的行动集;步骤3、利用强化学习中的Q学习方法得到每个系统状态下的最优加工行动;步骤4、利用学到的最优策略调度批处理机进行加工。本发明以各缓存库中工件存量为系统状态,采用启发式规则和强化学习算法相结合的方式对该系统进行优化调度,有效地提升了系统加工率,减少了工件在该工序的平均逗留时间。