基于hadoop的增量式数据处理算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:peace060606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的不断发展,越来越多的新兴产业加入到大数据的浪潮中,它们每天产出着海量的信息。分布式计算的出现,为处理海量数据的分析和处理提供了强有力的支持,同时也为一些成熟的服务(例如站点数据分析、日志分析等)指明了优化和升级的方向。这些不断产生的海量数据有一个重要的特征,即已经产生的数据很少会被修改,而后续收集的数据往往只是追加在数据集的末尾。因此在处理这种情景时,增量计算成为一种有力的手段。Incoop和HadUP是两种可以高度适应用户业务的增量计算框架。其中,Incoop采用任务级别结果重用的策略来实现增量计算。它先在初始化阶段执行一次全量计算,并将map task的结果保存起来。接着,在后续的增量计算中,map task根据输入分片split的指纹到结果缓存区中查询计算结果,如果能找到则直接获取计算结果,不再计算;否则需要对该map task的输入数据进行重新计算。HadUP采用了亚任务级别的结果重用策略,它利用定长划分将分片向下细化为segment和chunk两级。然后利用基于去重的快照差分算法(D-SD),计算新、旧数据差集,再与之前的历史结果进行合并,得出当前数据集的计算结果。它的缺点在于,当数据的修改发生的位置越靠前,定长划分中由于数据更新引起的偏差就会越大,计算的效率越低下。另外,D-SD算法对MapReduce的底层框架进行了修改,降低了实用性。为了解决这一问题,本文设计并实现了一种基于Hadoop的增量式数据处理系统HadInc。它结合Incoop和HadUP的优点,利用Incoop基于内容划分的思想,得到了稳定性更高的划分结果。除此之外,HadInc还改进了HadUP算法的差集数据分析模块,提高了细粒度划分的稳定性,从而提高了由于细粒度结果重用的命中率。这使得系统在运行时就能得到被修改的数据,并将其及时交付给其他外部应用,而不用等到整个Job执行结束后,才获取差集数据。基于上述思想,Had Inc将不同算法的优点糅合起来,使得自身能够适应更加广泛的应用场景,例如较多分片发生少量修改、个别分片大量修改等。在测试阶段,本文先对增量计算各个步骤的耗时进行了分析,解释说明了数据集的规模以及更新率对增量计算的影响;接着,对增量计算中的三个重要环节进行了优化,并展示和说明了优化结果;最后,本文设计了多个应用场景来验证HadInc的有效性,其中包括:1)少量分片的少量数据被修改;2)大量分片的少量数据被修改;3)少量分片的大量数据被修改;4)不同规模的大数据下,设置不同的分片大小,对比HadInc与其他算法的计算效率;5)利用维基百科的真实数据进行实用性检测。测试显示,HadInc系统在多数情况下表现良好,不但能够处理更加复杂的增量数据更新场景,还能保持更加稳定的计算效率,足以见得HadInc有着极高的可靠性和广泛适用性。
其他文献
在自然场景图像中有很多的图像信息,同样也有很多的文本信息。这些文本信息对于场景中内容的理解起着十分重要的作用。自然场景图像中的文本定位具有重要的研究意义,同时也是
随着通信技术的不断发展,无线通信逐渐在人们的日常生活中占据越来越重要的地位。然而,不断增长的频谱需求和有限的频谱资源之间的矛盾成为制约无线通信技术发展的重要原因之
随着互联网+时代的崛起,相干光正交频分复用(CO-OFDM)通信系统凭借其高频谱利用率、支持高阶调制和良好的传输性能等优点,成为了未来高速长距离传输的主要技术。但是与相干光
随着中国经济的快速发展,建设项目也跟着迅猛发展。建设项目在建设过程中难免会遇到各种各样的因素影响,为了规避和降低建设项目外部风险的影响,企业就必须加强对建设项目的
农业是我国的立国之本,强国之基。农产品主产区在我国的农业地位极为重要,其农业生产状况直接关系到国家的粮食供给和粮食安全。农产品主产区农地发展权受限损失测算与补偿研
近年来,随着手机、无线通信等移动设备的迅速兴起,人们对于无线通信的服务需求也随之不断增加,如无线通信系统数据传输的质量和效率,然而在机遇的背后一些制约其发展的瓶颈问
随着信息技术的迅速发展,各种领域对CPU浮点性能的要求越来越高,而除法与开方是浮点运算中较为复杂且相当影响性能的操作。因此,开展浮点除法与方根算术运算研究具有很重要的
集群语音系统作为专用应急通信手段,在各专业领域发挥着重要作用。但是传统专用集群设备技术开发难度大,实现代价较高。而随着IP电话的迅猛发展,基于IP电话的集群语音调度系
自从09年《阿凡达》的热映,人们对于3D电影的追求近乎狂热,《变形金刚》之类的大场面电影自不必说,人们甚至追求动画片的3D效果。目前3D电影是可以直接拍摄的,但是制作周期长
随着信息化社会的飞速发展,高性能计算已成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度上讲,高性能计算技术是一个国家综合国力的表现,并在社会生活的各个