摘要

序列模式挖掘是数据挖掘中的一个重要研究课题。序列模式挖掘算法通常需要用户设定最小支持度阈值minsup,然而这需要具备较深的领域知识或进行大量的实验。为了解决上述问题,研究者们逐渐将挖掘序列模式转变为挖掘top-K序列模式的研究。提出了一种top-K序列模式挖掘(top-K Sequential Patterns Mining,KSPM)算法。它采用OPUS的搜索方式对所有可能的候选序列进行遍历,并利用位图作为数据存储结构来缩小存储空间。此外,还使用了有效的剪枝策略提高算法执行效率。最后,通过web点击流序列、手语表达序列等数据集验证了提出的算法的有效性。