大数据环境下Hadoop平台性能优化研究

被引量 : 4次 | 上传用户:cin_long
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网、物联网以及各种移动设备的普及,当今社会数据规模已呈指数增长。数据种类包含了文本、语音、视频、网络日志等多种形式,大数据时代已然来临。在大数据时代,将已有的海量数据信息进行专业分析和处理,使得原始数据增值、可利用是亟需解决的关键问题。如今,Hadoop是一个能够有效的对海量数据进行分析与处理的开源平台,具有高可靠性、高扩展性、高效性以及高容错性等优点。因此,本文在大数据环境下对Hadoop平台的性能进行研究和优化有着重要的现实意义。本文首先对Hadoop平台进行了简单的介绍,重点研究了Hadoop平台的核心组成部分HDFS和Map Reduce,对二者的组成部分、运行原理进行了深入的研究,在分析HDFS和Map Reduce源码的基础上,提出了HDFS中Namenode存在的单点失效问题以及Map Reduce在处理连接问题时效率不高两个性能问题并对其进行优化研究。针对HDFS中Namenode单点失效问题,本文在对现有解决方案进行研究的基础上,提出一种改进的Avatar机制,改进的Avatar机制是一个能够支持自动切换,支持二次故障并且不丢失数据的方案。针对Map Reduce处理连接算法时所表现的效率低下问题,本文提出一种基于计数型Bloom过滤器的星型连接算法,该算法能够有效降低磁盘的I/O开销,大大缩短连接时间,提高了Hadoop分析海量数据的速度。最后,搭建了实验平台对改进的Avatar机制和基于计数型Bloom过滤器的星型连接算法进行实验验证,证明了改进的方案和算法在一定程度上提高了Hadoop的性能。
其他文献
随着我国教育事业的日益发展,二语习得理论也受到很大的青睐,因此很多学生想要通过英语阅读的方式,来提升自身的英语能力。阅读作为学生能够最有效获取信息的方式,因此有必要
<正> 新课程标准的基本理念指出:“现代信息技术的发展对数学教育的价值、目标内容以及学与教的方式产生了重大的影响。数学课程的设计与实施应该重视应用现代信息技术,特别
阐述了项目管理的发展、定义,以及软件项目管理的概念。在此基础上,从项目管理的角度,根据软件项目的特点和当前软件项目管理过程中存在的项目组织松散、开发计划不充分和项
近些年我国经济迅猛发展,已经一跃成为世界第三大经济体。金融全球化和经济全球化速度不断加快,外资银行不断进入中国市场,使我国原有的金融体制和相关机制已经很难适应时代
随着世界经济一体化的迅猛发展,以及中国加入WTO,我国本土企业将迎来史无前例的机遇和挑战,企业对于人才的争夺更是愈演愈烈。由于人才的质量优秀与否主要通过业绩来判断,故
目的:探讨细节护理在肛周湿疹患者中的应用效果。方法:选取我院肛肠科收治的68例肛周湿疹患者作为研究对象,本组患者均联合应用酮康唑和含锌炉甘石洗剂进行治疗,并从心理护理
高职学生的英语基础大多比较薄弱,对英语重视程度不够,学习缺乏主动性。本研究在分析高职学生特点的基础上,通过对比语言学的角度,分析中英两种语言之间的差异,探讨对比语言
<正>南京市祖堂山社会福利院位于南京祖堂山南麓,建设基地位于老院区东侧的2号、3号地块。2号地块隐干山林之中,散落布局的建筑达到建筑与环境的共生。3号地块用地相对平缓完
目的:利用磁共振动脉自旋标记灌注成像观察头针治疗缺血性轻型卒中的临床疗效,初步探讨头针用于脑卒中二级预防的可行性。方法:将符合病例纳入标准的60例缺血性轻型卒中患者
叙述与诗歌有着不解之缘,即使抒情诗亦是如此。本文运用叙述学的基本原理研究中国现代诗歌,力求通过对现代诗歌抒情与叙述问题的解析和中国现代诗歌叙述形态的历时性梳理,对