基于可扩展哈希算法的并行爬虫动态负载均衡实现

被引量 : 0次 | 上传用户:zble44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,搜索引擎成为获取信息的必需工具,而网络爬虫作为网页收集工具是搜索引擎的核心组成部分。随着互联网信息量的增大,对搜索引擎网页收集的全面性和及时性提出了更高的要求,因此爬虫的性能面临着巨大的挑战。不仅要求能够尽可能高效率的下载网页,而且要求能够尽量充分地利用计算资源和服务器资源。本文围绕着提高网络爬虫性能的核心需求,在深入研究了爬虫的工作原理和相关技术的基础上,从负载分配过程和负载动态均衡过程两个角度研究了爬虫的动态负载平衡,从多个方面较大提升了爬虫的运行性能。本文的主要成果可归纳为以下几个方面:首先,在对爬虫相关技术进行深入研究的基础上,提出了逻辑二级节点映射法与可扩展哈希算法相结合的静态负载分配策略,并针对实际应用中伪键分布异常的问题改进了可扩展哈希算法。其次,基于静态负载分配策略,提出以负载当量模型衡量并行爬虫系统节点的负载分布,继而根据系统节点的负载分布情况,以超图重划分模型对动态负载调度问题建模,最终引入分级策略解决超图重划分问题。最后,基于上述的理论研究成果,本文设计开发一个高性能的分布式并行网络爬虫系统。
其他文献
利用中国31个省份的面板数据,基于空间计量方法实证研究了文化产业集聚对区域经济增长的影响。其间利用行业集中度指数和区位熵指数测算了文化产业的集聚水平,运用Moran’s I
<正>也许,乾隆花了一生全部的力气,都是在努力证明他是英伟祖父的好孙子,精明父亲的好儿子,中原文化的好学生,大清王朝的好皇帝。为了证明他的优秀,太过用心,反而露了刻意的
局部地块概念规划是城市规划师主动服务的一种务实性规划,是针对体制转型阶段中城市快速发展的应对方法之一。通过规划实践,强调该类型规划的在解决城市敏感地块中具有积极的
市场需求瞬息万变,竞争者此消彼长。为了提高市场竞争力,保持不败之地,企业积极寻求新的管理模式,供应链管理下战略合作伙伴关系应运而生。处于竞争日益激烈的商业环境,为降
目的:探讨匹多莫德与利巴韦林联合治疗儿童手足口病的临床疗效。方法:将2012年7月—2013年12月收治的130例手足口病患儿,以抽签法随机分为观察组与对照组各65例。对照组患儿
50年来 ,中国文献分类学研究取得的成绩表现在 1 0个方面 :文献分类学基础理论 ;文献分类原理 ;文献分类法 ;文献分类工作和方法 ;分类法与主题法的关系 ;文献分类自动化 ;国
简要介绍了发动机反推力装置技术,反推力装置的几种主要分类,分析了各类反推力装置的优缺点,最后介绍了反推力装置实验的重要性以及实验方法。
《著作权法》于2001年由第九届全国人大常委会在北京通过修订了。此次修定删除了旧版著作权法第37条规定的作品录音法定许可制度,出人意料的是却在第40条规定了音乐作品的录
对我国高水平田径教练员、优秀田径运动员、体育类院校专家、田径运动管理者进行问卷调查,结合个案研究、逻辑推理、数理统计等研究方法进行资料的整合与统计,构建我国田径教
对设计坡度在30°~60°之间的坡屋面结构施工进行阐述,采用双层模板、分级浇筑,保证坡屋面结构的质量。