基于MapReduce的科学计算应用性能分析与优化

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lishao_minlimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Google设计提出的MapReduce并行编程模型有效地把并行程序的编写者从一些琐碎的编程困难中解放出来。程序员无需为并行程序的任务调度、资源管理以及容错性方面花费过多的精力。如今此模型被广泛地运用于众多海量数据并行处理应用中。由于此框架把并行应用的编写者从并行处理、容错处理以及节点负载平衡此类繁琐工作中解放出来,它极大的提高了集群中并行数据处理程序开发的效率科学计算应用,作为一类具有实用意义的应用一直没有能够移植于这个成功的MapReduce平台上。本文选取SPLASH-2测试集中两个具有代表意义的科学计算应用Water和基数排序进行研究,把它们移植到两个开源的MapReduce框架Hadoop和Phoenix上,分别部署于集群环境和多核平台。通过这样来分析MapReduce平台上运行此类应用时遇到的性能瓶颈,找出其对应的框架设计问题。为两个不同平台上的实现,尤其为集群平台上的,更做了许多具有针对型的测试和分析。从实验的结果中我们发现,在多核平台上,内存空间限制了应用的规模。而集群上,由于框架设计的原则和科学计算应用的行为特征不符合,缺乏底层存储系统的支持,导致了在数据变型、传输方面带来了额外的运行开销,从而使得运行整体时间大大拉长。当输入数据量增长时,运行速度急剧下降。原有的MapReduce接口也不能直观的运用于开发此类应用,在这些应用移植到MapReduce过程中给程序员带来了额外的工作量。本文针对以上问题,提出一套可行的优化方案。针对MapReduce框架,本文提出要增加编程接口类型,以支持科学计算的需求。同时为了避免多个迭代中的数据冗余传输,要在调度过程中注意,尽量分配处理相同数据的任务到同一个计算节点。而在集群MapReduce实现方面,底层通用的文件系统无法适应科学计算应用的需要,应该增加对特殊数据结构的底层支持。通过这些优化措施,能够使得科学计算应用高效地运行于MapReduce这个广泛被接受的分布式平台之上。
其他文献
多处理机系统中引入虚拟化,会带来很大的优势——多处理机系统使得虚拟化技术能够应用更多原本可能会被浪费的处理器周期和计算资源,从而实现集中化计算和资源的动态分配,充
Internet上数量不断激增的网站,使得人们上网的起点,从默记的网址,演变为网站黄页,又被搜索引擎所替代。但以搜索引擎为核心的日常网络生活仍不够便捷。iGoogle, Yahoo!和AOL
P2P网络是近年来的研究热点,如何在分布广泛、数量庞大、节点行为不可控制的复杂环境下实现高效的检索服务是P2P应用面临的巨大挑战。目前的P2P资源检索一般仅支持简单的关键
随着万维网的迅速发展,越来越多的组织、公司等在万维网上发布已发现的软件安全缺陷信息。本文研究基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该
移动数据的管理在时空数据库领域占有十分重要的地位,移动数据的运动在数据结构上往往以轨迹的形式体现,之前的针对轨迹数据管理的大多数研究工作主要集中在欧几里得空间下展
闪存由于高效的随机读、低功耗和无噪音等优点,被认为有望取代磁盘成为数据库的永久性存储介质。闪存一些不同于磁盘的I/O特性,使得传统的基于磁盘I/O的算法和数据结构,如B+
随着网络技术的迅猛发展,网络安全问题得到了越来越多的关注。作为一种积极主动的安全防御技术,入侵检测技术提供了对内、外部攻击的实时检测,成为保障网络安全的重要手段。
等价验证是自动验证领域的主流方法之一,另一个主流方法是模型检测。等价验证研究的重点是互模拟等价验证。互模拟等价验证起始于上世纪80年代。互模拟等价验证研究关注的模型
随着影视动画、虚拟现实,文物遗产保护等领域日益上升的三维模型的需求,从多幅图像中进行三维模型恢复的技术得到越来越多的关注。相比于传统激光扫描三维建模技术,采用多视
本文在分析传统的非线性时间序列建模和预报方法基础上,提出利用适合于非高斯、非线性过程的粒子滤波技术,对非线性时间序列的建模和预报进行新方法研究。针对待预测数据对象