高性能MapReduce系统的优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:PLMM1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以多核集群为主流架构的高性能计算机成为高性能计算的主要硬件支撑平台。而共享变量和消息传递是最常用的两类并行编程模型。但其对并行的描述与表达层次较低。开发者在使用它们时,必须花费许多时间和精力来熟悉并显式地使用它们所提供的各种同步、通信原语,借此来组织并行任务之间的协作关系。而MapReduce并行模型是一种高度抽象、编写串行程序可以自动并行运行、编程接口简单的并行编程模型。它能使程序员在比较高的抽象层次上以一种更易理解和更易使用的方式来表述并行计算问题。HPMR是我实验室为了推广MapReduce模型而设计开发的面向高性能计算的MapReduce系统,支持大规模计算的任务分配和自动并行。目前HPMR的系统性能与直接使用MPI编程还有差距。为了使其更具有实用性,本文结合几种常用的优化技术对该系统展开优化。主要从以下几个方面开展工作:(1)从HPMR系统高性能计算程序的通信特征出发,把处理器底层体系结构中分支预测与推测执行思想引入到HPMR的通信优化中,设计了优化的通信模型。HPMR程序的通信特征是每一轮的KV传输以高概率使用上一轮的KV路由表。这就使得一些MR过程的KV路由过程变得没有必要。如果把底层体系结构中分支预测与推测执行思想引入到KV路由过程的处理过程中,则可以减少没有必要的KV路由过程,提高HPMR的通信效率。(2)研究当前HPMR的内存管理的特点以及缺陷,设计了一个高效的内存管理机制。HPMR的内存管理的特点:冗余而低效、内存拷贝频繁。鉴于此,引入了内存池机制,重新设计了HPMR内存管理机制。(3)基于集群通信高效实现的前提下,展开对路由表进行集群通信识别的优化。在HPMR通信系统的实现中,在路由表的指导下,KV数据传输目前仅能通过点对点通信实现。如果此时它用集群通信例如广播通信或散播通信比较适合,但仍旧只能通过点对点通信低效地一步一步传输。可以对路由表进行优化,使其支持集群通信,避免用点对点通信的低效模拟。本文研究工作的目标:用几种优化技术改进HPMR的系统性能,增强HPMR系统的实用性。
其他文献
图处理系统正被广泛的应用于各个领域的数据分析中,随着图处理任务的增加,它们需要有效的应对多任务环境。现有的图处理系统一般针对单一任务设计,在执行并行任务时存在图数
随着视频共享系统和编辑软件的出现以及广泛使用,共享系统中的视频数量和种类快速增加。在这些海量视频中存在大量重复或在内容上高度近似的视频,增加了用户与视频共享系统之
人脸检测是一个复杂的模式判别问题,其难点主要由成像角度不同所引起:如平面内旋转和平面外旋转,偏转角度会直接影响判定人脸的准确度。当前基于深度学习卷积神经网络的检测
近年来我国高等教育学分制逐步推行,办学规模日益扩大,教学资源也显得相对紧缺,这就要求教务管理工作向着更高效的信息化和网络化发展。教务管理工作的信息化、模块化、便捷
随着计算机软、硬件的飞速发展,以及互联网和无线通信技术的日益成熟,基于嵌入式和无线网络的监控系统在各个领域发挥着越来越重要的作用。针对无人值守或特殊行业对远程监控
信息技术的快速发展促进了各行业在原有分布式业务信息管理平台下加强信息资源集成、共享、挖掘与利用。安全稳定及时可靠的数据交换网络是系统平台升级,行业之间行业内部频
相对于多副本存储,纠删码在保证数据可用性的同时具有存储效率高、可扩展性好的优点。因此,如何将纠删码应用在多副本集群中成为热门的研究方向。当副本集群为了提升存储效率
目前在数据库领域存在着大量的与个体相关的数据,如:人口统计数据、客户购物数据、患者医疗数据等,称之为微数据。这些数据对于趋势分析、市场预测等具有重要的价值。然而,由
Ceph是当前流行的分布式存储系统,具有很好的扩展性和可用性。随着存储技术的发展,SSD(即“Solid State Disk”)等新型存储器件逐渐普及,很多用户通过在Ceph集群中使用SSD来
随着计算机技术和信息通信技术的不断发展,信息化时代的脚步已经越来越快。在这个大背景下,由于嵌入式系统在抗老化、防颠簸、极端环境试验中比其他架构的类似系统有着明显的