Hadoop平台中小文件处理方法及任务调度问题的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:fafa1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2007年以来,云计算是目前国内外商业和科研机构研究的热点之一,它是一种通过互联网将数据中心的各种资源打包成服务向外提供的商业模式。一些IT商业巨头把云计算作为其未来发展的最主要战略之一,云计算的研究不但紧跟业界技术发展的趋势,同时还具有较高的应用价值。当前,大多数的云计算系统采用Hadoop平台来进行开发和调度程序,Hadoop是Apache开源组织的一个分布式计算机框架,它是一个主要由HDFS(Hadoop Distributed File System)和MapReduce组成的集群构架。本文以Hadoop为研究对象,分别从HDFS小文件问题和任务调度的角度,研究基于Hadoop平台的性能优化问题。  针对HDFS小文件问题,借鉴分布式文件系统领域现有的相关概念与技术,对如何解决HDFS处理海量小文件的问题进行了研究,提出了解决办法。一方面是文件整合,本文将属于同一目录下的小文件合并成一个大文件,以提高小文件存储效率。针对整合过程中出现的跨块文件,提出了解决方案。另一方面是Cache管理,本文提出了一种缓存策略,以提高小文件读取效率。根据调研Cache的置换策略及一致性策略,结合需求和特点,提出了相应的策略。本文提出的这两个方面分别对小文件的写操作和读操作进行了优化。  针对Hadoop中MapReduce任务调度问题,研究了Hadoop平台任务调度算法。为满足任务的合理分配及负载均衡,将加权轮询调度算法的思想引入到Hadoop的任务调度中,提出了一种适合于Hadoop平台的改进的加权轮询调度算法。该算法是基于在某个时间,如果权值小的作业中输入的任务数相对较多,而权值大的作业中输入的任务数相对较少的情况下提出的。通过考虑权值更新的各种情况,提出了一种权值更新规则,目的就是为了更好的实现负载均衡。  在以上研究的基础上,本文利用实验室硬件资源搭建了一个Hadoop平台,分别进行了小文件问题实验和任务调度算法实验,结果表明了本文提出的方法优化了小文件的读写操作性能,以及达到了任务的合理分配及负载均衡。
其他文献
Web服务是一种新兴的Web应用方式,是一个崭新的分布式对象模型,近年来得到了迅速的发展。随着其应用范围以及Web服务动态组合需求的扩大,Web服务的发布与发现,已经成为Web服务系
随着计算机技术、互联网络和移动网络技术的快速发展,信息的存储容量和传送能力不断提高,电子商务、普适计算、社交网络、物联网、云计算等各种形式的网络应用不断出现并得到快
最优化问题是工程实践和科学研究中普遍存在的问题,其中多目标优化问题是指那些需要同时优化多个目标的问题。一般来说,这多个目标是相互冲突的,因此,和单目标优化不同,多目标优化
模型检测是自动化地验证系统行为满足给定性质的一种技术。它的基本做法是通过对系统所有可能的行为进行探索来证明系统满足给定的性质。模型检测面临“状态爆炸”问题,即系统
随着社交媒体的快速发展,基于用户的情感分析逐渐引起了研究领域的关注。情感分析指的是根据用户在社交媒体上评论自动地分析出用户情感极性。然而,用户仅仅在他们比较关心或者
全球随时随地都在产生着各种各样的数据,例如股票市场的交易数据、电子商务的订单数据、科学卫星的探测数据等等。这些数据都不是固定在某个地点,而是根据所属的应用种类通过计
语义蕴涵关系识别在自然语言处理中有广泛的应用。在多文档自动文摘中可以用来进行文摘句的选择,解决句子冗余;在机器翻译中,可以判断目标翻译句子与双语语料库中句子的语义蕴涵
人们在生活水平不断提高的同时,对生活质量的要求也越来越高,再加上信息的网络化和个人电脑的普及化,使得艺术品网上交易平台近年来发展势头迅猛。  本文以艺术品网上交易为背
随着视频编解码技术的不断发展,高清视频应用的日益普及,人们对视频的清晰度和流畅度的需求也变得越来越高。高清晰度视频编码解码处理是数据密集和计算密集的计算,计算机系
秘密共享是数据保密和信息安全的一种重要手段,能够防止重要秘密信息及数据的丢失、毁坏和恶意利用。(t,n)门限秘密共享是秘密共享技术中最常见的一种实现方法,它将共享秘密分成