摘要

随着工业物联网进程的加快,如何从多维、异构、海量的工业过程数据集中提取有用的规则,用于调节控制整个工业生产是过程控制中的一个难题。因此,提出一种面向工业过程控制的分布式并行聚类关联规则挖掘算法。该算法基于Spark并行计算框架,针对Eclat关联规则算法挖掘过程中的执行流程与数据分区问题,引入计算量与自适应步长划分策略,提升算法执行效率与并行化能力,从而高效处理海量数据,然后结合K-Means++聚类算法实现分布式并行聚类关联规则挖掘算法。最后,将算法应用于复杂化工Tenessee Eastman(TE)过程的操作关联规则提取,并结合工艺理论与相关机理分析验证算法的有效性。