摘要

针对传统频繁项集挖掘不能挖掘隐式频繁项集导致的输出频繁项集数量少、有潜在价值的项集未被发现、无法从利润方面体现数据价值等问题,提出了一种基于加权动态树的高权重容错频繁项集挖掘算法(HWFT-WDT)。该算法用于挖掘高权重容错频繁项集,保证用户能获得更加完整的项集及重要性信息;提出了加权动态树的数据结构,能够保存每个节点的权重,便于平均权重的计算;仅使用一个加权动态树的方法,避免了构造多个子树的高成本;提出了3个剪枝策略,有效地缩小了挖掘过程中的搜索空间。实验结果表明,该算法在运行时间、存储空间及延展性方面皆优于FT-PatternGrowth算法及FT-Apriori算法。