论文部分内容阅读
随着互联网的快速发展,网络资源越来越丰富。但海量级、碎片化的信息却大大增加了人们获取有效信息的时间和成本。搜索引擎已经成为人们获取Web信息最重要的一种网络应用。信息采集系统作为搜索引擎的重要组成部分,负责在互联网上采集各种网页,从中提取有效信息,向搜素引擎提供检索服务所需的海量数据。然而,随着互联网的快速发展,互联网如此浩大的网页规模呈现惊人的增长速度和动态的分布趋势,信息采集系统也面临着新的严峻挑战。本文旨在设计并实现一个健壮的、可扩展的、高效率的分布式网络信息采集系统,为新一代互联网的分布式搜索引擎系统提供可靠、有效的数据信息。本文详细分析了信息采集系统的基本原理,研究其中的采集策略、网页去重策略、礼貌采集策略、网页更新等问题,进一步深入分析了信息采集系统的核心工作原理。并以此设计并实现了基于主从式架构的分布式网络信息采集系统。该系统由一个主节点和多个从节点组成。主节点分成应用层和通讯层,应用层负责业务处理,主节点保存并维护所有的URL信息,并从URL库中生成采集列表,细分成多个采集任务;通讯层则负责接受从节点的状态信息以及向从节点分发采集任务。从节点同样分为应用层和通讯层,应用层负责完成主节点分发的采集任务,并将采集到的网页数据保存在本地,返回新发现的URL;通信层则定时将节点状态信息作为“心跳信息”发送给主节点,并监听和接收主节点分发的采集任务。本文采用RMI技术作为分布式系统的实现方法,使得分散的从节点能互相协作完成采集任务,充分发挥了分布式系统的优越性。本文对系统的性能进行了以下几方面的测试:任务粒度测试、采集性能测试、任务负载均衡测试、系统可扩展性测试。最后对本系统进行了总结,并对信息采集系统的未来发展给出了展望。