摘要

网络已经成为世界上最大的数字图书馆。目前网上信息数量仍在急剧膨胀 ,无用信息所占比例愈来愈大 ,而且网络传输速度较慢 ,由于数据的存储结构直接影响着查询质量和查询速度 ,因此网络信息的存储方式亟需改进。本文针对网络信息固有的特点提出一种新的文档存储结构 ,改进了搜索引擎的性能。主要内容包括信息的自动分类 ,网页相关度的计算 ,垃圾信息以及重复信息的过滤等技术