分布式网络信息采集系统的设计与实现

被引量 : 0次 | 上传用户:lengyubo88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络资源越来越丰富。但海量级、碎片化的信息却大大增加了人们获取有效信息的时间和成本。搜索引擎已经成为人们获取Web信息最重要的一种网络应用。信息采集系统作为搜索引擎的重要组成部分,负责在互联网上采集各种网页,从中提取有效信息,向搜素引擎提供检索服务所需的海量数据。然而,随着互联网的快速发展,互联网如此浩大的网页规模呈现惊人的增长速度和动态的分布趋势,信息采集系统也面临着新的严峻挑战。本文旨在设计并实现一个健壮的、可扩展的、高效率的分布式网络信息采集系统,为新一代互联网的分布式搜索引擎系统提供可靠、有效的数据信息。本文详细分析了信息采集系统的基本原理,研究其中的采集策略、网页去重策略、礼貌采集策略、网页更新等问题,进一步深入分析了信息采集系统的核心工作原理。并以此设计并实现了基于主从式架构的分布式网络信息采集系统。该系统由一个主节点和多个从节点组成。主节点分成应用层和通讯层,应用层负责业务处理,主节点保存并维护所有的URL信息,并从URL库中生成采集列表,细分成多个采集任务;通讯层则负责接受从节点的状态信息以及向从节点分发采集任务。从节点同样分为应用层和通讯层,应用层负责完成主节点分发的采集任务,并将采集到的网页数据保存在本地,返回新发现的URL;通信层则定时将节点状态信息作为“心跳信息”发送给主节点,并监听和接收主节点分发的采集任务。本文采用RMI技术作为分布式系统的实现方法,使得分散的从节点能互相协作完成采集任务,充分发挥了分布式系统的优越性。本文对系统的性能进行了以下几方面的测试:任务粒度测试、采集性能测试、任务负载均衡测试、系统可扩展性测试。最后对本系统进行了总结,并对信息采集系统的未来发展给出了展望。
其他文献
二维码是用某种特定的几何图形按一定规律在平面分布的黑白相间的图形记录数据符号信息的,可实现联网,拨号等功能。通常是经过专门识别系统处理,识别图像,解析信息。但若条码
并存债务承担制度系属债之移转的一种形式,具体而言,是为债务承担之一种。其起源于德国民法,为日本民法与我国台湾地区民法界所继受。并存债务承担中第三人作为债务承担人加
第一部分骨桥蛋白在不同体外模拟胆汁体系中成核作用的综合研究目的探讨骨桥蛋白(OPN)在Small模拟胆汁和综合模拟胆汁中的成核效应及其可能的相关机制。方法制备过饱和Small
动脉粥样硬化是当今社会的最主要致死、致残性疾病。据估计,到2020年,心血管疾病尤其是动脉粥样硬化将成为全球疾病负担的最主要原因。研究表明,其发病机制为:各种危险因素引
目的:总结导师治疗带状疱疹的临床经验。方法:通过对导师临床治疗带状疱疹的观察,结合跟吾师学习的体会,总结导师对带状疱疹的病因、病机、治则、治法以及对带状疱疹后遗神经
随着人民生活水平的不断提高,舞台演出和舞美用具的蓬勃发展,舞美管理系统的开发就显得越来越重要。本系统是由VC6.0开发的管理系统。它采用服务器-客户端结构,能够远程对数
聚羟基脂肪酸酯(Polyhydroxyalkanoates, PHAs)为生物绿色合成,具有生物可降解性、优良的生物相容性以及可控的力学性能,在组织工程支架材料领域受到广泛的关注与研究。PHAs
自由是人类关切的终极价值之一,是政治哲学讨论的中心话题。20世纪80年代,随着价值多元主义在西方政治思想界的兴起,同时对自由主义的议题有了更深入的探讨。盖尔斯顿作为一
流变学是研究非牛顿流体在应力、应变、温度等条件下与时间因素有关的变形和流动的科学,是介于物理、力学、医学、生物和工程技术之间的一门边缘交叉学科。在自然界和工程技术
中成药学术营模式各有优劣,按照医生的思维方式,混合推广模式和中药西推模式比较适合大多数有试验证据的中药。$$2015年开始,随着新医改不断推进,医药行业管理进入试水阶段,
报纸