论文部分内容阅读
网络已经成为世界上最大的数字图书馆.目前网上信息数量仍在急剧膨胀,无用信息所占比例愈来愈大,而且网络传输速度较慢,由于数据的存储结构直接影响着查询质量和查询速度,因此网络信息的存储方式亟需改进.本文针对网络信息固有的特点提出一种新的文档存储结构,改进了搜索引擎的性能.主要内容包括信息的自动分类,网页相关度的计算,垃圾信息以及重复信息的过滤等技术.