分布式Web Crawler的研究:结构、算法和策略

来源 :电子学报 | 被引量 : 0次 | 上传用户:saarelff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. This article introduced a large-scale distributed Web Crawler system - Igloo 1.2 edition. It uses a distributed system structure, through which we design a two-level hash mapping algorithm to make the system can efficiently task segmentation, and the scale of the system can be dynamically scalable.Crawling the quality of Web pages is an important indicator to evaluate Crawler, Igloo to PageRank Value as the standard of Web page quality evaluation to improve the crawling quality.The key to speed up the crawling speed is how to lift the performance bottleneck in Crawler system.This paper also discussed in detail and proposed a strategy based on " UBL database access methods.Experiments show that Igloo can quickly crawl to high quality web pages while maintaining high performance.
其他文献
简要介绍了基于遗传算法的分类器和在此基础上建立的地震预报分类体系的基本原理.设计出基于遗传算法的地震短期综合预报分类系统的研究思路和方法,即以异常持续时间为编码依据,以遗传算法为优选预报规则的工具,以预报3个月地震为目标,综合测震和前兆多手段进行地震预测.对北天山西段进行多参数初步试算后表明该方法具有很高的学习正确率和较高检验和预测能力.
石炭系东河砂岩是塔里木盆地塔中40油田的储集层,在成藏过程中伴生了大量的流体包裹体,流体包裹体的均一温度明显分为88.6~100.73℃和122.1~144.7℃二个区间,它们可能反映了油
结构刚度矩阵和质量矩阵是关于设计参数的函数 ,而且事实上一般是非线性函数 .结构动力学设计通常要求结构具有指定的动力特性 ,结构动力学设计问题可以归纳为一类含设计参数
肇源县实施防治华支睾吸虫病社区干预后,居民华支睾吸虫感染率由基线调查的67.43%降至7.12%,居民卫生知识和卫生行为知晓率分别上升124.55%和156.03%,取得了良好的效果.
采用具有同心圆形闭磁场结构的二维模型作为日冕物质抛射(CME)的触发模型,并使这种触发模型分别在偏离冕流结构对称中心10°和45°的位置浮出,数值模拟这时产生CME事件的特征
开展了火箭基组合循环推进在引射阶段的实验系统设计。实验系统包括以支板为特征结构形式的引射火箭试验发动机、自由射流气路系统、燃料喷注系统和压强推力数据采集系统。以
采用天然海水配制的台盼蓝染色液和曙红B染色液对低温冷冻的锯缘青蟹精子的活力进行评价研究.结果表明,用这两种染色液染色死活精子呈现出明显不同的特征,进而以无钙离子人工
利用单幅放大摄影法研究了含钾盐消焰剂的NC/TMETN (三羟甲基乙烷三硝酸酯 )基钝感推进剂的火焰结构。结果表明 ,不同的钾盐导致该类推进剂的火焰结构各不相同。含有机钾盐KD
2011年度预防医学国家自然科学基金委员会(简称自然科学基金委)共受理项目申请1661项,涵盖14个分支学科,研究内容涉及了我国各个领域的重大公共卫生问题.现就2011年申请项目
改进并重新组装了自行研制的高温热导型流动热量计 ,利用电标定法测定了该仪器在 70 0℃和 80 0℃的热量常数。为检验仪器的可靠性 ,本仪器测定了氮气的热沉 ,结果表明实验值