论文部分内容阅读
本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索、反馈和预测排队机制,对网页内容的进行分析处理(分词、建立VSM向量、计算网页内容相关度),对页面上的超链接指向的页面内容进行预测和先下载和主题相关性高的页面,实现在互联网上有选择的采集和主题相关性高的用户需求的内容并进行存储。它与广度优先搜索和深度优先搜索相比,有更高的效率和更小的代价。
传统的搜索引擎是基于整个网络进行采集,需要大量的硬件和网络资源的支持,而且搜索引擎服务器存储只是网页的某一历史时刻的记录(这一时刻与现在时刻的距离取决于搜索引擎的更新时间),而定向采集可以只采集某些方面的文档,所以与传统的搜索引擎相比系统资源和网络资源消耗很小,更新快,比较接近当前的web,用户个性化满足好。此系统可进行专题研究,可形成立体的专题库(时间和空间),进行历史资料的积累和查阅。