摘要

网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。