分布式网络信息采集系统的设计与实现

被引量 : 0次 | 上传用户：lengyubo88

【摘要】

：

随着互联网的快速发展,网络资源越来越丰富。但海量级、碎片化的信息却大大增加了人们获取有效信息的时间和成本。搜索引擎已经成为人们获取Web信息最重要的一种网络应用。信

【作者】

：

钟啟莹

【发表日期】

：

2011年期

【关键词】

：

搜索引擎分布式系统信息采集 RMI

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,网络资源越来越丰富。但海量级、碎片化的信息却大大增加了人们获取有效信息的时间和成本。搜索引擎已经成为人们获取Web信息最重要的一种网络应用。信息采集系统作为搜索引擎的重要组成部分,负责在互联网上采集各种网页,从中提取有效信息,向搜素引擎提供检索服务所需的海量数据。然而,随着互联网的快速发展,互联网如此浩大的网页规模呈现惊人的增长速度和动态的分布趋势,信息采集系统也面临着新的严峻挑战。本文旨在设计并实现一个健壮的、可扩展的、高效率的分布式网络信息采集系统,为新一代互联网的分布式搜索引擎系统提供可靠、有效的数据信息。本文详细分析了信息采集系统的基本原理,研究其中的采集策略、网页去重策略、礼貌采集策略、网页更新等问题,进一步深入分析了信息采集系统的核心工作原理。并以此设计并实现了基于主从式架构的分布式网络信息采集系统。该系统由一个主节点和多个从节点组成。主节点分成应用层和通讯层,应用层负责业务处理,主节点保存并维护所有的URL信息,并从URL库中生成采集列表,细分成多个采集任务;通讯层则负责接受从节点的状态信息以及向从节点分发采集任务。从节点同样分为应用层和通讯层,应用层负责完成主节点分发的采集任务,并将采集到的网页数据保存在本地,返回新发现的URL;通信层则定时将节点状态信息作为“心跳信息”发送给主节点,并监听和接收主节点分发的采集任务。本文采用RMI技术作为分布式系统的实现方法,使得分散的从节点能互相协作完成采集任务,充分发挥了分布式系统的优越性。本文对系统的性能进行了以下几方面的测试:任务粒度测试、采集性能测试、任务负载均衡测试、系统可扩展性测试。最后对本系统进行了总结,并对信息采集系统的未来发展给出了展望。

其他文献

基于Android移动终端摄像的图像处理与应用

二维码是用某种特定的几何图形按一定规律在平面分布的黑白相间的图形记录数据符号信息的,可实现联网,拨号等功能。通常是经过专门识别系统处理,识别图像,解析信息。但若条码

学位

图像处理图像识别边缘检测去噪Android

并存债务承担制度研究

并存债务承担制度系属债之移转的一种形式,具体而言,是为债务承担之一种。其起源于德国民法,为日本民法与我国台湾地区民法界所继受。并存债务承担中第三人作为债务承担人加

学位

债务承担债务承担协议无因性

骨桥蛋白在胆囊胆固醇结石形成中的作用及相关机制研究

第一部分骨桥蛋白在不同体外模拟胆汁体系中成核作用的综合研究目的探讨骨桥蛋白(OPN)在Small模拟胆汁和综合模拟胆汁中的成核效应及其可能的相关机制。方法制备过饱和Small

学位

胆固醇成核模拟胆汁胆囊胆汁胆汁泡骨桥蛋白成核因子胆囊结石胆固醇结石

组织因子途径抑制物2在ACS患者循环中的水平及其对血管平滑肌细胞增殖、迁移的影响及机制研究

动脉粥样硬化是当今社会的最主要致死、致残性疾病。据估计,到2020年,心血管疾病尤其是动脉粥样硬化将成为全球疾病负担的最主要原因。研究表明,其发病机制为：各种危险因素引

学位

急性冠脉综合征组织因子途径抑制物2基质金属蛋白酶血管平滑肌细胞增殖迁移信号转导

李文金教授治疗带状疱疹的经验总结

目的:总结导师治疗带状疱疹的临床经验。方法:通过对导师临床治疗带状疱疹的观察,结合跟吾师学习的体会,总结导师对带状疱疹的病因、病机、治则、治法以及对带状疱疹后遗神经

学位

带状疱疹带状疱疹后遗神经痛临床经验总结

阿坝州民族歌舞团舞美信息管理系统的设计与实现

随着人民生活水平的不断提高,舞台演出和舞美用具的蓬勃发展,舞美管理系统的开发就显得越来越重要。本系统是由VC6.0开发的管理系统。它采用服务器-客户端结构,能够远程对数

学位

VC6.0SQL Server 2000系统模块舞美管理

聚羟基脂肪酸酯经细胞黏附肽KQAGDV仿生修饰后的细胞相容性研究

聚羟基脂肪酸酯(Polyhydroxyalkanoates, PHAs)为生物绿色合成,具有生物可降解性、优良的生物相容性以及可控的力学性能,在组织工程支架材料领域受到广泛的关注与研究。PHAs

学位

聚羟基脂肪酸酯PhaR蛋白KQAGDV多肽仿生修饰细胞相容性

盖尔斯顿自由多元主义思想研究

自由是人类关切的终极价值之一,是政治哲学讨论的中心话题。20世纪80年代,随着价值多元主义在西方政治思想界的兴起,同时对自由主义的议题有了更深入的探讨。盖尔斯顿作为一

学位

政治哲学价值多元主义自由多元主义

生物流变特性测试方法及应用研究

流变学是研究非牛顿流体在应力、应变、温度等条件下与时间因素有关的变形和流动的科学，是介于物理、力学、医学、生物和工程技术之间的一门边缘交叉学科。在自然界和工程技术

学位

非牛顿流体流变学特性生物医学检测测试仪器精度评定

分布式网络信息采集系统的设计与实现

与本文相关的学术论文