基于hadoop的增量式数据处理算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：peace060606

【摘要】

：

随着互联网行业的不断发展,越来越多的新兴产业加入到大数据的浪潮中,它们每天产出着海量的信息。分布式计算的出现,为处理海量数据的分析和处理提供了强有力的支持,同时也为

【作者】

：

冯元元

【出处】

：

西安电子科技大学

【发表日期】

：

2004年期

【关键词】

：

Hadoop MapReduce 分布式计算增量计算大数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网行业的不断发展,越来越多的新兴产业加入到大数据的浪潮中,它们每天产出着海量的信息。分布式计算的出现,为处理海量数据的分析和处理提供了强有力的支持,同时也为一些成熟的服务(例如站点数据分析、日志分析等)指明了优化和升级的方向。这些不断产生的海量数据有一个重要的特征,即已经产生的数据很少会被修改,而后续收集的数据往往只是追加在数据集的末尾。因此在处理这种情景时,增量计算成为一种有力的手段。Incoop和HadUP是两种可以高度适应用户业务的增量计算框架。其中,Incoop采用任务级别结果重用的策略来实现增量计算。它先在初始化阶段执行一次全量计算,并将map task的结果保存起来。接着,在后续的增量计算中,map task根据输入分片split的指纹到结果缓存区中查询计算结果,如果能找到则直接获取计算结果,不再计算;否则需要对该map task的输入数据进行重新计算。HadUP采用了亚任务级别的结果重用策略,它利用定长划分将分片向下细化为segment和chunk两级。然后利用基于去重的快照差分算法(D-SD),计算新、旧数据差集,再与之前的历史结果进行合并,得出当前数据集的计算结果。它的缺点在于,当数据的修改发生的位置越靠前,定长划分中由于数据更新引起的偏差就会越大,计算的效率越低下。另外,D-SD算法对MapReduce的底层框架进行了修改,降低了实用性。为了解决这一问题,本文设计并实现了一种基于Hadoop的增量式数据处理系统HadInc。它结合Incoop和HadUP的优点,利用Incoop基于内容划分的思想,得到了稳定性更高的划分结果。除此之外,HadInc还改进了HadUP算法的差集数据分析模块,提高了细粒度划分的稳定性,从而提高了由于细粒度结果重用的命中率。这使得系统在运行时就能得到被修改的数据,并将其及时交付给其他外部应用,而不用等到整个Job执行结束后,才获取差集数据。基于上述思想,Had Inc将不同算法的优点糅合起来,使得自身能够适应更加广泛的应用场景,例如较多分片发生少量修改、个别分片大量修改等。在测试阶段,本文先对增量计算各个步骤的耗时进行了分析,解释说明了数据集的规模以及更新率对增量计算的影响;接着,对增量计算中的三个重要环节进行了优化,并展示和说明了优化结果;最后,本文设计了多个应用场景来验证HadInc的有效性,其中包括:1)少量分片的少量数据被修改;2)大量分片的少量数据被修改;3)少量分片的大量数据被修改;4)不同规模的大数据下,设置不同的分片大小,对比HadInc与其他算法的计算效率;5)利用维基百科的真实数据进行实用性检测。测试显示,HadInc系统在多数情况下表现良好,不但能够处理更加复杂的增量数据更新场景,还能保持更加稳定的计算效率,足以见得HadInc有着极高的可靠性和广泛适用性。

其他文献

自然场景图像中的文本定位

在自然场景图像中有很多的图像信息,同样也有很多的文本信息。这些文本信息对于场景中内容的理解起着十分重要的作用。自然场景图像中的文本定位具有重要的研究意义,同时也是

学位

文本定位最大稳定极值区域AdaBoost分类器笔画宽度变换

基于OFDM双向协作的频谱接入方法研究

随着通信技术的不断发展,无线通信逐渐在人们的日常生活中占据越来越重要的地位。然而,不断增长的频谱需求和有限的频谱资源之间的矛盾成为制约无线通信技术发展的重要原因之

学位

认知无线电频谱接入双向协作OFDM技术资源优化

大线宽CO-OFDM系统中相位噪声补偿算法研究

随着互联网+时代的崛起,相干光正交频分复用(CO-OFDM)通信系统凭借其高频谱利用率、支持高阶调制和良好的传输性能等优点,成为了未来高速长距离传输的主要技术。但是与相干光

学位

相干光正交频分复用相位噪声公共相位误差载波间干扰亚符号

衡阳市滨江新区建设项目外部风险管理研究

随着中国经济的快速发展,建设项目也跟着迅猛发展。建设项目在建设过程中难免会遇到各种各样的因素影响,为了规避和降低建设项目外部风险的影响,企业就必须加强对建设项目的

学位

建设项目层次分析法模糊综合评价外部风险管理应对措施

农产品主产区农地发展权受限损失估算与补偿研究

农业是我国的立国之本,强国之基。农产品主产区在我国的农业地位极为重要,其农业生产状况直接关系到国家的粮食供给和粮食安全。农产品主产区农地发展权受限损失测算与补偿研

学位

农产品主产区农地发展权受限意愿调查法补偿

基于能量均衡的认知无线电双向中继网络能耗优化

近年来,随着手机、无线通信等移动设备的迅速兴起,人们对于无线通信的服务需求也随之不断增加,如无线通信系统数据传输的质量和效率,然而在机遇的背后一些制约其发展的瓶颈问

学位

认知无线电双向中继中继选择能量效率资源优化

基于POWER架构的浮点除法/方根单元设计与验证

随着信息技术的迅速发展,各种领域对CPU浮点性能的要求越来越高,而除法与开方是浮点运算中较为复杂且相当影响性能的操作。因此,开展浮点除法与方根算术运算研究具有很重要的

学位

SRT算法SP64POWER架构UVM连分式

基于IP电话的集群语音调度系统的研究与实现

集群语音系统作为专用应急通信手段,在各专业领域发挥着重要作用。但是传统专用集群设备技术开发难度大,实现代价较高。而随着IP电话的迅猛发展,基于IP电话的集群语音调度系

学位

SIP协议集群调度组呼负载均衡

2D转3D视频中深度信息处理与空洞填充的研究

自从09年《阿凡达》的热映,人们对于3D电影的追求近乎狂热,《变形金刚》之类的大场面电影自不必说,人们甚至追求动画片的3D效果。目前3D电影是可以直接拍摄的,但是制作周期长

学位

2D转3D深度图图像分割空洞填充

网格与环绕上路径覆盖及容错路径问题的研究

随着信息化社会的飞速发展,高性能计算已成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度上讲,高性能计算技术是一个国家综合国力的表现,并在社会生活的各个

学位

互连网络不相交路径覆盖容错最长无故障路径容错最长无故障路径路由算法

基于hadoop的增量式数据处理算法的研究与实现

与本文相关的学术论文