基于云存储的数据流处理技术的研究

来源 :武汉理工大学 | 被引量 : 9次 | 上传用户:jsrlzxd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2006年Google提出云计算概念以来,云计算从备受业界质疑的概念炒作成为如今越来越成熟的技术服务形态。在云计算提供的众多服务类型里,存储服务成为我们最为直接使用的一种云计算服务,并发展成为业界独立研究的领域,目前众多的IT巨头都在云存储领域进行布局。云存储是为大数据时代而生的,如何更加高效、快速、安全的进行海量数据的存储、管理和处理,仍然是吸引众多IT人士不断研究的课题。如今,在云存储的后端,Hadoop作为最适合大数据处理的开源技术,正被广泛的研究和使用。但由于Hadoop的兴起时间不长,其还存在着一些设计缺陷,并且由于众多云存储服务提供商会根据服务的类别和数据中心的实际情况,需要对Hadoop进行改进,以便提供更好的服务。本文的研究内容包括云存储中数据流处理关键技术Hadoop,Hadoop是把数据以流的方式来进行处理的。通过对Hadoop平台中核心组件HDFS分布式文件系统的框架和执行流程的研究,针对其单一主控节点NameNode的设计缺陷,提出了一种主控节点压力分解的方法,在可接受的性能损失范围内,减轻了HDFS架构中单一主控节点的访问压力,对系统架构做出了一定的修改,使其在总体上能够承担更多的访问请求,并且降低了单一节点在过量负载时造成的不稳定性甚至是崩溃的风险,使系统的健壮性进一步提高。另外,本文对HDFS的元数据信息进行二次备份设计,进一步提高了系统的可靠性。本文还对Hadoop的另一核心组件Map/Reduce的数据流处理机制进行研究,针对其过于消耗资源的缺点,提出了一种在特定情况下能够有效的降低Map/Reduce的资源消耗的优化方式。本文针对这些特殊情况下,对元数据的数据结构进行改进,使Map/Reduce在进行数据流处理之前能够先从HDFS获得元数据信息,进行数据块的精准定位,过滤掉不必要的数据处理,使HDFS对Map/Reduce的支持进一步提高,能够有效的降低数据处理过程中的资源消耗,避免了资源的浪费。在本文的最后,通过多次实验,使优化后的系统与原始架构中数据处理情况进行比较。实验数据表明,改进后的系统在平衡资源消耗以及负载压力情况下,能够达到我们预期的结果。本文得到国家自然科学基金项目(批准号:60970064)的资助。
其他文献
随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大
随着计算机技术的不断进步,掌纹识别技术已逐渐成为在模式识别、人机交互和机器学习等核心领域中的研究热点之一。掌纹识别具有侵犯性低、成本低、稳定性好等优点,已受到业界
近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具
粗糙集理论是一种处理模糊和不确定知识的数学工具,利用已知的知识库,通过上近似算子和下近似算子来近似刻画和处理不精确的知识。它已经被广泛应用于医学、机器学习、决策分析
现在国际上的大口径兼大视场望远镜有美国的Sloan数字巡天望远镜,英澳天文台的2dF巡天望远镜,我国的LAMOST巡天望远镜等。它们将得到海量的光谱数据。通过观测获得恒星的光谱
随着科学技术日新月异的发展和软件规模的不断扩大,软件在各个行业得到了广泛的运用,已经成为生活中不可分割的组成部分。虽然软件经过严格的测试,但是每千行代码中平均仍然有10
当今的互联网处于大数据爆炸的知识时代,每天都会产生各种类型、各种结构的海量数据资源等待有效利用和深层挖掘。其中文献数据是科研人员进行相关学术研究,产生新的研究成果
随着社会经济的发展,经济活动水平的不断提高,每年人工爆破的发生频数越来越多。在地震观测台站观测到的波形数据中,如果不作适当处理极易将人工爆炸与天然地震相混淆,地震与爆炸
随着网络的普及,信息时代的到来,人们日常生活所面临的数据已经非常巨大,如何围绕这些数据建立数据仓库、进行数据挖掘和数据分析正逐步成为数据处理的主题。如何快速准确分
随着信息社会的不断发展,军人接触互联网的机会已大大增加,军人在网络上的活动日益频繁。部分现役和退伍军人喜欢在一些网络论坛和社交网站(如QQ,人人网等)中上传自己的军装照片,