论文部分内容阅读
信息采集系统作为各种Web信息服务的基础和重要组成部分,正广泛应用于搜索引擎、站点结构分析、页面有效性分析以及Web图进化等多种应用和研究当中。因为Web中的信息量巨大,并且具有动态、异构、高重复、高链接以及多语种等特性,使得信息采集面临着巨大的挑战。 并行采集是提高采集效率的有效方法。本文对如何设计一个良好的分布式采集框架进行了深入研究,并实现了一个健壮的、具有高可扩性的分布式信息采集系统—InsunSpider。为了降低通信模块设计的复杂性,本文采用网络文件系统—NFS来实现采集节点间的通信,将通信交由操作系统去处理。同时,这种通信策略还降低了节点间的通信带宽代价。为了在运行期间,无论硬件故障还是人为干预造成了系统结构变化(即节点数目的增减)都不会影响系统的性能,本文采用两阶段映射模型实现了系统的动态可配置性。系统中实现了一个主控端来对采集结点进行监控,当系统规模发生变化时,主控会对各采集节点的一些数据进行调整,如逻辑映射表、Hash表等。 为了实现对网页的快速更新,本文提出了一种高效的增量式采集算法。该算法以“高灵敏”网页的特性和更新的局部性为依据,将更新的关注点集中到能够体现更新的那部分页面,提高了增量采集的效率。实验证明,该算法特别适用于限定到新闻类网站的中小规模的增量信息采集。 此外,本文还对快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。 通过对实验结果的分析,证明了本文所实现的信息采集系统InsunSpider具有高效、高可扩展、高可配置、负载均衡等特性。目前,本系统正应用于为实验室的检索系统和问答对抽取系统等提供数据服务。本系统具有广阔的应用前景和实用价值。