摘要

网络已经成为世界上最大的数字图书馆,目前网上信息数量仍在急剧膨胀,无用信息占有比例愈来愈大,而且网络传输速度较慢,由于网页的存储结构直接影响着查询质量和查询速度,因此网络信息的存储方式亟需改进。本文针对网络信息固有的特点提出一种新的文档存储结构,改进了搜索引擎的性能.其中主要包括信息的自动分类,网页相关度的计算,垃圾信息以及重复信息的过滤等技术。