摘要

本文研究了ETL任务调度优化问题,提出了一套基于Kettle改进的集群调度策略。该策略将ETL任务调度分为任务预处理、任务分配和任务执行三个阶段。任务预处理阶段根据业务紧迫度和任务负载模式,构建任务初始调度序列。任务分配阶段为了避免集群负载不均衡,依据任务待处理数据规模,引入贪心算法思想进行任务调度分配。任务执行阶段为保证任务执行机会均等,采用高响应比优先算法执行任务。实验结果表明本文所提策略对比Kettle原始策略,能够有效提升任务执行效率、缩短关键任务执行时间。