【摘 要】
:
伴随Internet和Web技术的飞速发展,语音、视频、网络日志、互联网搜索索引、互联网文本文件等技术的广泛使用带来了数据量的急剧增长,这预示着大数据时代的到来。大数据时代
论文部分内容阅读
伴随Internet和Web技术的飞速发展,语音、视频、网络日志、互联网搜索索引、互联网文本文件等技术的广泛使用带来了数据量的急剧增长,这预示着大数据时代的到来。大数据时代的数据具有数据量剧增、数据结构更复杂化的特点,导致数据存储和处理的难度加大。而Hadoop的出现大大简化了大数据时代数据的存储和处理的问题,所以本文对Hadoop技术的研究和优化具有重要的现实意义。本文研究的主要内容是:首先对Hadoop的核心技术HDFS和MapReduce的原理进行了研究和分析。分别从名字节点、数据节点、接口、类、调用关系等方面进行详细的研究,并分析了HDFS和MapReduce的工作机制。同时,针对Hadoop目前存在的两个性能问题,在深入研究源码的基础上,提出初步改进方案。其次,对第一个性能问题Hadoop推测执行算法在异构环境中性能较差的问题进行研究和分析,提出改进的算法,该算法根据系统负载的情况自动的调节后备任务的执行,以实现系统负载的均衡;采用Zaharia提出的历史平均剩余完成时间估算剩余时间,并将剩余时间的值大于0.2的方法判断掉队者,进而得到更精确的掉队者队列。新算法在一定程度上提高了异构环境中推测执行的性能。最后,对第二个性能问题DBInputFormat操作关系数据库中的海量数据时所出现的性能缺陷问题进行深入的分析和研究,并对DBInputFormat接口进行改进,提出新的分片策略,构建新接口。该接口在一定程度上提高了Hadoop操作关系数据库的效率,改善了Hadoop读取关系数据库的性能。搭建实验平台,分别对新提出的算法和改进的接口进行实验,经过验证,说明它们在一定程度上都提高了Hadoop性能。
其他文献
社会公众对领导者公共形象的认知和评价体现出民心向背。在大众媒介高度发达和民意彰显的当今时代,领导者公共形象的作用和影响日益凸显,领导者公共形象的建构和传播成为一个
<正>在中华耳科学杂志2012年6月耳内科专辑"耳内科疾病相关基础研究与诊治新进展(上篇)"[1]中,作者对近年来耳内科疾病中涉及到的听觉前庭系统中的内耳功能基因学、内耳液体
走向多样化FPD从上世纪90年代主要用作PC的显示器到新世纪前10年赖以推广大屏幕平板电视.此后发展重点便转向了移动产品,FPD变得轻巧、便携、高清、亮丽。世界FPD产业的大型化
随着我国经济社会发展,研究生教育改革发展也步入一个新的历史阶段。新形势下,研究生教育规模平稳增长,教育结构也进入适应需求、不断优化的新阶段。在"新常态"下,如何将现代
文章论述了泰戈尔的小说创作的四个问题:1.泰戈尔作为小说家的成就和特殊地位;2.泰戈尔小说创作中的现实主义;3.泰戈尔小说中两类基本形象及其特征;4.泰戈尔小说中的局限。文章特别突
随着数字信号处理理论和大规模集成电路的快速发展,高频数字技术以其低成本、高集成度和高通信覆盖范围等特点,在海事通信、战场指挥以及抢险救灾等领域得到了广泛的应用。本
经济全球化以来,品牌经济逐步发展成了主流经济,民族品牌作为国民经济重要组成部分之一,是我国核心竞争力的重要体现。童装行业作为服装行业内的“最后一块蛋糕”,随着成人装
钾是植物生长发育所必需的矿质元素之一。钾吸收调控在生理学及分子生物学方面已取得了很多研究成果,综述了近年来钾素的吸收、影响因素及其调控三个方面的研究进展。
对贵州猕猴桃的生态气候条件进行了调查,分析了贵州不同地区猕猴桃生育期的变化、春梢生长与气象条件的关系、开花与气象条件的关系和果实生育和成熟与气象条件的关系。
机体依靠“自杀”(细胞凋亡)控制异常生长的细胞,而细胞依靠“自食”(细胞自噬)回收所需的组分。近年来越来越多的证据表明,细胞凋亡和细胞自噬之间存在错综复杂的对话。这两