论文部分内容阅读
近20年来,为了应对Web上信息量的不断增长以及信息更新频度的不断提高,Web信息采集系统不断扩大自身规模,其系统结构也从单机到多机,从集中式到分布式逐步演进。至今,分布式系统结构已经成为构建Web信息采集系统的首选方案,而由分布式系统结构所引申出的Web划分问题、任务调度问题和节点协同问题已经成为构建分布式Web信息采集系统的关键技术问题。对这些关键技术问题的深入分析与研究对于提高搜索引擎系统的性能乃至整个Web的可访问性具有重要意义。本文在总结前人工作的基础上,针对分布式Web信息采集系统的若干关键技术问题进行了深入研究。首先,现有的分布式Web信息采集系统乃至分布式搜索引擎系统都缺乏对系统构建中的最根本要素--系统成本的量化评估,为此,本文提出了一个较为完善的包括分布式Web信息采集系统在内的分布式搜索引擎的成本模型,并利用该成本模型对若干种构建搜索引擎系统的设计方案从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析。我们发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他搜索引擎系统具有相对较低的成本,同时能够较好的兼顾对用户的服务质量。之后,针对在分布式环境下如何能够有效降低网页下载时间这一问题,本文对面向网络距离的Web划分算法进行了研究,给出了适用于分布式采集系统的网络距离的度量标准;基于网络距离和网络坐标系统,我们提出了一种新的Web划分算法,并通过实验验证了其在提高系统吞吐量方面的优越性。针对广域网分布式Web信息采集系统,本文分别在任务调度和节点协同方面提出了若干优化方法:针对Web划分方法在动态调度中的不足,提出了基于任务转发的动态负载均衡算法,避免了采集节点的忙闲不均现象,进一步提高了全系统的吞吐量;针对广域网分布式Web信息采集系统中节点间通信量负载较重的问题,提出通过对Web主机之间链接关系建立坐标模型的方法,实现面向链接关系的Web划分,从而降低了采集节点间通信量中比重最大的链接交换的通信量。最后,为了兼顾分布式Web信息采集中的健壮性、效率和成本,本文提出了一种基于内容寻址网络的广域网分布式Web信息采集系统,该系统能够利用网络上分布在各处的独立的计算资源,组建一个能够完成Web信息采集功能的覆盖网络,从而为这三个问题提供了有效的解决方案:一方面,内容寻址网络这种P2P协议的采用,使得系统可以随着Web一起扩展和壮大;另一方面,Web划分大幅缩短Web信息采集时间,提高了系统的吞吐量及信息更新频率;同时,根据我们提出的成本模型分析,该系统还能够降低系统成本。