摘要

提出一种基于页面空间特征、视觉特征和内容特征的主题相关性判别方法,通过主题相关度大小量化描述不同内容的重要性,并采用混合加权方法从主题相关节点中提取网页的主题特征。分类实验结果表明,相比传统的FullDoc全文分类,基于此方法提取的主题特征具有更好的分类效果。