摘要

简要介绍了文本挖掘技术,并描绘了该技术在Web应用特别是信息检索技术中的重要性。再对整个文本知识挖掘过程所涉及的各个方面进行了进一步地研究探讨,包括了文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价等几个方面。其间运用数据挖掘技术对各个过程进行处理,并引进基于评估函数的特征筛选算法、词频矩阵、余弦计算法和潜在语义标引等方法来处理文本挖掘过程所产生的问题。在此基础上得出了一个完整的Web文本挖掘过程。最后展望了文本挖掘技术在Web应用中的前景。