MapReduce框架在高性能计算机平台上的部署与性能优化技术

来源 :第19届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:voidemort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临已经为个人生活、企业经营,甚至国家和社会发展带来了新的机遇,同时大数据的存储、分析处理技术也迎来了严峻挑战.当前大规模数据处理平台主要有商用集群系统、高性能计算机系统等,相应的处理技术分别为MapReduce编程框架和MPI并行程序设计等.但是此两种技术都有各自的优势和缺点,处理效率有限.研究如何使两者优势互补、相互融合,可以一定程度上缓解大数据的存储与处理压力,而且对于拓展高性能计算机的应用领域具有一定意义.本文首先探索了在采用MPP体系结构的高性能计算机系统上直接部署MapReduce的可能性,测试发现其性能受限于共享存储系统的I/O瓶颈.于是本文提出一种内存缓存策略,将MapReduce任务的中间数据和临时数据缓存在内存中,在高性能计算机TH1-A上测试后发现,对于会产生大量中间结果数据的应用,内存缓存的效率提升达100%以上.
其他文献
在老年人中,尤其是老年女性中,骨质疏松症和肌肉减少症是两种紧密相关的复杂疾病,都属于骨骼肌肉系统疾病。骨骼肌肉系统的发育、功能以及衰老等方面都是一个有机的整体,在遗
我国是世界上山地生态系统退化最严重、也是较早开展退化山地植被恢复与重建实践和研究的国家之一。由于退化山地恢复时间长、经费开支大等原因,迫使研究者尽快开展寻求解决
  本文根据多核数字信号处理器(Multi-core DSP)片上存储器的特点,针对其二级缓存/静态随机存储器(L2 Cache/SRAM)采用以下几种策略进行设计和改进:首先去除两级缓存之间的数
会议
  自动精简配置(Thin Provisioning,TP)技术通过按需分配可以有效地解决传统容量配置技术造成的存储资源浪费问题。然而,存储区域网络(Storage Area Network,SAN)环境下,自
  采用分簇管理的无线传感器网络,能够显著地节省能量。簇头在数据的汇总、融合、转发过程中起到关键作用,因此,一旦簇头被俘,存储的密钥信息泄露,将影响整个簇的安全通信。为有
课程与教学调研是教研员的日常工作之一,调研的目的是为了更好地了解和服务基层学校。调研中,教研员往往会按照自己的经验判断,从课堂观察的视角给教师和学校提出意见和建议。但
  本文首先研究了分布式集群存储系统中如何为各个客户端提供公平有效的I/O服务的问题,然后针对大规模集群文件系统提出了一种分布式I/O拥塞控制的策略。在我们的拥塞控制下
会议
自惠普实验室于2008年5月研制出世界首个忆阻器,许多科研工作者投入到对忆阻器的研究中.从最初的单纯非易失性存储器到基本逻辑操作,再到人工神经网络应用,关于忆阻器的研究
  针对基于闪存和磁盘的混合存储技术成为研究热点,为了对混合存储的各类算法进行性能评估,本文提出了一个准确有效的仿真平台——Hybrid DiskSim.Hybrid DiskSim模拟了磁盘
会议
  快照技术作为保障存储系统数据安全性的重要手段已得到越来越多的应用。然而在面向海量数据的分布式文件系统中,快照技术在快照记录和快照恢复方面存在开销高、扩展性差等