【摘 要】
:
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作
【机 构】
:
中国科学院沈阳计算技术研究所,中国科学院大学
论文部分内容阅读
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.
其他文献
为了实现利用视频车辆检测器数据计算和预测路段行程时间,将排队长度数据应用到路段行程时间的计算中,采用改进粒子群的BP神经网络算法和时间序列分析对路段进行实证研究.将
针对移动云计算中资源发现能耗高的问题,提出了一种自适应、自动切换资源发现模式的高能效资源发现算法.首先,为两种主流移动资源发现模式分别建立能耗-资源质量模型;然后,利
随着无缝连接技术的发展,以多媒体应用服务为核心的无线电技术必须满足用户网络服务质量的要求. 对于异构无线网络,可能发生不同技术和管理域之间的切换,切换判决不再基于某一参
研究了面向服务的Web报表设计器,通过提供服务的方式保障系统功能需求.设计器作为一个粗粒度的服务,由多个细粒度的子服务构成,通过转换接口的方式为不同业务系统提供模板设
储层评价是油田有利区筛选及预测的重要基础和依据,针对传统AHP方法主观性强、判断矩阵不一致等问题,对AHP算法进行改进,提出一种基于改进AHP的储层综合评价方法.该方法采用
形式化Z语言采用严格的数学理论可以有效提高软件的可靠性和鲁棒性,但是由于其包含的数学理论使得只有少数人能够熟练应用Z语言进行形式化规格说明书的编写.目前,多数对于Z语
大量的研究表明,临床路径在提高医院运行效率上发挥了极大的作用,但是怎样方便快捷地找到某种疾病的临床路径是一个关键的问题.随着信息技术的发展,数据存储能力以及数据收集
针对传统基于接收信号强度的定位缺陷,提出一种新型的基于K-邻居节点覆盖的物联网定位模型.该模型分为选取邻居节点与定位两个阶段,未知节点先通过调整发射功率等级来选择最近的K个邻居节点,尽量减少远距离节点对定位的影响.定位阶段,未知节点通过与K个信标节点的接收信号强度来计算权重,通过加权求和算出未知节点的坐标.采用K-邻居节点误差的自校正方法对坐标进行补偿.该定位模型可有效的避免环境因素对定位的影响,
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是基于生物视觉特性而提出的新一代人工神经网络,它在数字图像处理及人工智能等领域具有广泛应用前景.本文通过研究PCNN理论模型及其工作特性的基础上提出了一种提取人脸特征的方法.首先利用小波变换提取人脸图像低频特征,降低人脸图像的维度,然后利用简化的PCNN提取小波低频系数重构后的人脸图像的相应时间序列,并以此作为人
介绍了异构协议报文格式和特点,通过使用XML语言描述可扩展协议报文的方法,以简单协议解析为基础,将解析器功能模块化,从而设计此异构协议动态解析器模型.应用此模型实现不必