摘要

用户点击流信息被广泛应用于Web使用信息挖掘中。点击流相似度常用于用户会话分类和聚类。SSK(String Subsequence Kernel)最初被用于计算字符串相似度,后被引入计算点击流相似度,并成为目前常用方法之一。SSK选择两个字符串所有长度为k的子序列生成特征空间。单一k的选择往往存在特征数不足的问题,从而难以获得足够精确的点击流相似度。因此,提出一种新的点击流相似度计算方法ESSK(Extended String Subsequence Ker-nel)。ESSK采用所有子序列生成特征空间以解决SSK存在的问题。同时提出一种高效计算ESSK的算法,以降低计算复杂度。实验表明,ES...

  • 出版日期2012
  • 单位南京大学; 计算机软件新技术国家重点实验室