面向迭代计算的MapReduce优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：zty85633278

【摘要】

：

MapReduce计算模型是一种流行的分布式计算模型。MapReduce计算模型从解决简单的文本处理问题发展到解决复杂的机器学习、数据挖掘和社交网络分析等问题，从处理批处理型作业发

【作者】

：

余根茂

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

迭代型作业动态数据映射归约模型算法优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

MapReduce计算模型是一种流行的分布式计算模型。MapReduce计算模型从解决简单的文本处理问题发展到解决复杂的机器学习、数据挖掘和社交网络分析等问题，从处理批处理型作业发展到处理迭代型作业。但是大量的使用经验表明MapReduce计算模型不适合迭代型作业。由于任务的重复执行特性和动态数据的存在，迭代型作业中存在大量的数据传输。迭代算法广泛存在于机器学习、数据挖掘和社交网络分析等应用中，现有MapReduce计算模型无法有效支持这类应用，设计一种能够透明高效地支持迭代计算的MapReduce计算模型是亟待解决的问题。　　针对现有Hadoop实现迭代算法存在网络传输负载大的问题，面向迭代计算的MapReduce优化方法从计算模型的数据流角度出发，从四个不同角度进行优化：通过一种动态数据的缓存策略，解决将动态数据存储于分布式文件系统中带来的额外网络传输开销和磁盘I/O开销；通过一种动态数据的预取策略，解决传统系统中以任务为单位请求和传输数据方式带来的极大的网络传输开销；通过一种面向迭代型作业的任务调度策略，解决任务调度器对集群网络负载的弱感知性，并支持作业历史执行信息的反馈优化；同时为了解决节点失败导致动态数据在存储和传输过程中丢失的问题，提出针对于动态数据的容错策略以减少重复计算。基于以上优化方法实现了原型系统Conch。　　实验结果表明，Conch系统能够透明高效地支持迭代型作业。基于现有测试规模，动态数据传输规模降低了16倍。在单作业环境下相较于Hadoop系统和HaLoop系统，Conch系统中K-Means作业性能提升了17.7％和14.7％，fuzzy C-Means作业性能提升了15.9％和13.5％。在多作业环境下，Conch系统有更高的作业吞吐量，相较于Hadoop系统和HaLoop系统分别最高提升了63.6％和28.6％。

其他文献

移动Agent的通信问题研究

作为人工智能与分布式计算技术相结合的产物，移动Agent技术已经成为分布式计算研究的热点。移动Agent本质上是代表用户在网上寻找合作伙伴，进行交互并最终完成用户指派的任务的

学位

移动Agent通信模型通信机制通信失效

嵌入式多核环境下的并发程序调试研究

随着软件系统规模越来越大，软件调试技术在当今的软件工程中变得越发重要。多核处理器的不断发展和并发编程技术的广泛应用，使得传统的软件调试技术无法完全满足调试的需求，这就

学位

并发程序调试系统功能模块嵌入式多核环境

硬盘读写通道AGC系统的设计与仿真研究

随着数据存储设备对计算、通信、消费和娱乐等领域普遍而深入的影响,为了满足不断出现的高性能外部设备的需求,硬盘技术一直在飞速发展。当前硬盘驱动器工业的发展趋向于小型

学位

模拟前端自动增益控制可变增益放大器连续时间低通滤波器

基于ElGamal签名方案的阈下信道研究

阈下信道作为信息隐藏技术的一种重要的实现方式，引起了人们的广泛注意。阈下信道的研究包括两个方面：一方面是构造阈下信道，为网络用户提供安全信息传输服务；另一方面是封闭阈下

学位

数字签名ElGamal信息隐藏阈下信道

广域网存储服务发现系统的设计与实现

随着互联网和存储工业的飞速发展,基于下一代互联网的网络存储业务在种类和规模上的拓展,使得存储服务定位问题日益突出地摆在了服务提供者和用户的面前。传统的搜索引擎和索

学位

广域网存储服务发现服务定位协议Chord

基于P2P的应用层组播系统的研究与实现

组播技术是一种针对多点传输和多方协作应用的组通信模型，有着高效的数据传输效率，是互联网研究的一个重要课题。早期的组播技术研究试图在IP层提供组播通信功能，但IP组播技术有

学位

应用层组播系统P2P组通信模型组播协议拥塞控制

无线传感器网络操作系统的任务与能效管理

ARTs-SNOS是由华中科技大学华祥软件实验室ERTOS项目组自主研发的一款无线传感器网络操作系统,以用于高端分布式无线传感器网络。本文旨在对WSNOS的关键技术进行系统的研究与

学位

无线传感器网络双效任务管理数据流数据无损聚合

基于人眼视觉特性的彩色逆半调质量评价方法研究

传统的客观图像质量评价方法不能有效地反映出人眼对图像的视觉感知，从而导致评价结果与实际不符。因此可以将人眼视觉系统特性引入客观评价方法，以改进其不足。本文在借鉴现有

学位

图像质量评价彩色逆半调人眼视觉系统色差结构相似度

Windows客户端属性操作与元数据预取研究

面向对象的存储系统(Object-Based Storage System, OBS)由三部分组成:客户端,元数据服务器,对象存储设备。元数据服务器存放和统一管理数据的元数据,而对象存储设备存放真正

学位

对象存储系统元数据服务客户端文件系统关联度预取

基于IEEE 802.11 DCF的无线传感器网络自适应紧急上报与兴趣命令协议

无线传感器网络MAC协议决定其无线信道的使用方式，在传感器节点之间分配有限的无线通信资源，用来构建无线传感器网络系统的底层基础结构。无线传感器网络MAC协议对整个无线传感

学位

无线传感器网络紧急上报兴趣命令断链恢复数据融合时钟同步虚拟时戳父亲责任链

面向迭代计算的MapReduce优化方法研究

与本文相关的学术论文