Hadoop中数据放置优化机制的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:taohua3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)作为新一代企业级存储架构的核心,是云计算和大数据时代应对存储容量压力、I/O性能瓶颈、存储成本危机等诸多挑战的重要支撑技术。HDFS将大数据进行分块存储并按照一定的数据放置策略分布存储到各个数据节点,来提升数据中心的存储和处理效率,从而达到整个云平台的高可用性和高可靠性等目标。然而,随着云计算应用的不断拓展和数据中心模式的不断演化,上层大数据应用所产生的业务数据呈现出越来越明显的“冷”、“热”属性,给HDFS的数据管理带来了新的挑战:一方面,对于存储占比较大且访问频率较低的冷数据,如果仍采用HDFS默认的三副本冗余策略,将会给数据中心带来巨大的存储代价;另一方面,数据量的剧增使得数据中心不断扩容,节点异构性愈发突显,HDFS机架感知的数据放置策略由于忽略了节点及数据热度的异构性,导致节点负载和数据资源分配不均,从而降低了存储系统的整体性能。为了解决以上问题,本硕士论文针对数据热度划分和数据放置优化两个关键技术,研究相关的机制和算法,期望在保证数据可靠性的同时,能够减少存储代价并提高系统整体性能。具体地,本论文从以下三个方面开展研究工作:首先,研究基于时间序列的数据热度划分方法。针对现有HDFS三副本冗余策略忽略了数据热度导致存储成本过高的问题,提出了热度感知划分算法,即得到用户对于数据访问频率的时间序列,计算出时间序列的DTW距离,然后通过K-means聚类算法,将时间序列转化为数据的热度属性,为后面数据放置策略提供基础。其次,研究热度敏感的数据放置优化策略。针对HDFS数据放置过程中忽视了节点异构性导致系统性能下降的问题,对于冷、热数据分别提出了相应的放置优化策略:对于访问频率高的热数据,提出了一个动态副本感知的数据放置方法,用以提高存储系统的整体性能;对于访问频率低的冷数据,提出了一个基于纠删码冗余的数据放置机制,在保证数据可用性的前提下,降低存储成本。最后,基于上述理论研究成果,设计并开发面向HDFS的数据放置优化系统KittyTwinkle。通过增加数据统计模块并修改数据放置过程等,实现HDFS中数据放置的优化管理,并部署于东南大学云计算中心环境中进行应用验证。实验结果表明,本文所提基于时间序列的数据热度划分方法和热度敏感的数据放置优化策略,在保证数据可用性的同时,能够显著地减少数据中心的存储代价,并能有效提升存储系统的性能,为大数据的存储和管理提供了行之有效的解决方案。
其他文献
改革开放以来,我国经济发展取得巨大成就。目前我国的经济发展进入了重要的转型期,依靠人口红利和资源投入的粗放式发展模式已经不能持续,走技术创新的发展道路成为必然的选
接触器和继电器是铁路各型机车的常用电器部件,其具有结构简单、成本低、控制方便等特点,起着控制机车的正常启动与停止,调节升降速,和保护电路等多方面的作用,使其成为了内
魏晋南北朝,又称之为三国两晋南北朝(以下论文简称魏晋时期),这一时期,国家的政权更替十分频繁。战争接连不断,多股封建势力割据,不同民族相互迁徙,人口变动较大,致使语言的
本文對蔣禮鴻先生考釋、校正《類篇》所著《類篇考索》(後簡稱《考索》)一書做了深入研究。首先,文章從文字研究、訓詁研究、校勘研究三方面舉例論《考索》成就,針對條目補充
针对当今数字水印技术中水印信息存储量小、加密方式单一、认证繁琐等问题,提出将QR二维码和数字水印技术相结合的算法,该算法充分利用二维码存储信息量大、易于识别认证、易
手语识别是通过计算机技术将手语动作转换成文字或声音的技术,对辅助聋哑人与非手语人群的正常交流具有重要意义。现有的手语识别方法主要分为基于传感器和基于计算机视觉的
20世纪90年代中期之前,商业银行更多的是被当作公司治理的一个重要监督机制,1997年开始的东南亚金融危机使银行业自身的治理问题受到普遍关注,伴随着2002年6月初中国人民银行
无线传感器网络技术将现代无线通信技术、微型传感器技术和网络技术有机地融为一体,在国防、环境监测、家庭自动化、运输和其他许多领域具有广阔的应用前景和商用价值。与传
本文研究的是在国家大力发展农村经济和支持农村信用社改革,增强农村信用社竞争力的背景下,科右前旗农村信用联社如何利用内外条件,通过合理、有效的经营发展战略,提供优质高
电子政务的大力发展,使得政府办公由传统的线下开始向线上转移。然而,由于网络的开放性,如何确保开放网络上的信息安全,保证信息传输的完整性、保密性、真实性、可用性以及不