面向迭代计算的MapReduce优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zty85633278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce计算模型是一种流行的分布式计算模型。MapReduce计算模型从解决简单的文本处理问题发展到解决复杂的机器学习、数据挖掘和社交网络分析等问题,从处理批处理型作业发展到处理迭代型作业。但是大量的使用经验表明MapReduce计算模型不适合迭代型作业。由于任务的重复执行特性和动态数据的存在,迭代型作业中存在大量的数据传输。迭代算法广泛存在于机器学习、数据挖掘和社交网络分析等应用中,现有MapReduce计算模型无法有效支持这类应用,设计一种能够透明高效地支持迭代计算的MapReduce计算模型是亟待解决的问题。  针对现有Hadoop实现迭代算法存在网络传输负载大的问题,面向迭代计算的MapReduce优化方法从计算模型的数据流角度出发,从四个不同角度进行优化:通过一种动态数据的缓存策略,解决将动态数据存储于分布式文件系统中带来的额外网络传输开销和磁盘I/O开销;通过一种动态数据的预取策略,解决传统系统中以任务为单位请求和传输数据方式带来的极大的网络传输开销;通过一种面向迭代型作业的任务调度策略,解决任务调度器对集群网络负载的弱感知性,并支持作业历史执行信息的反馈优化;同时为了解决节点失败导致动态数据在存储和传输过程中丢失的问题,提出针对于动态数据的容错策略以减少重复计算。基于以上优化方法实现了原型系统Conch。  实验结果表明,Conch系统能够透明高效地支持迭代型作业。基于现有测试规模,动态数据传输规模降低了16倍。在单作业环境下相较于Hadoop系统和HaLoop系统,Conch系统中K-Means作业性能提升了17.7%和14.7%,fuzzy C-Means作业性能提升了15.9%和13.5%。在多作业环境下,Conch系统有更高的作业吞吐量,相较于Hadoop系统和HaLoop系统分别最高提升了63.6%和28.6%。
其他文献
作为人工智能与分布式计算技术相结合的产物,移动Agent技术已经成为分布式计算研究的热点。移动Agent本质上是代表用户在网上寻找合作伙伴,进行交互并最终完成用户指派的任务的
随着软件系统规模越来越大,软件调试技术在当今的软件工程中变得越发重要。多核处理器的不断发展和并发编程技术的广泛应用,使得传统的软件调试技术无法完全满足调试的需求,这就
随着数据存储设备对计算、通信、消费和娱乐等领域普遍而深入的影响,为了满足不断出现的高性能外部设备的需求,硬盘技术一直在飞速发展。当前硬盘驱动器工业的发展趋向于小型
阈下信道作为信息隐藏技术的一种重要的实现方式,引起了人们的广泛注意。阈下信道的研究包括两个方面:一方面是构造阈下信道,为网络用户提供安全信息传输服务;另一方面是封闭阈下
随着互联网和存储工业的飞速发展,基于下一代互联网的网络存储业务在种类和规模上的拓展,使得存储服务定位问题日益突出地摆在了服务提供者和用户的面前。传统的搜索引擎和索
组播技术是一种针对多点传输和多方协作应用的组通信模型,有着高效的数据传输效率,是互联网研究的一个重要课题。早期的组播技术研究试图在IP层提供组播通信功能,但IP组播技术有
ARTs-SNOS是由华中科技大学华祥软件实验室ERTOS项目组自主研发的一款无线传感器网络操作系统,以用于高端分布式无线传感器网络。本文旨在对WSNOS的关键技术进行系统的研究与
传统的客观图像质量评价方法不能有效地反映出人眼对图像的视觉感知,从而导致评价结果与实际不符。因此可以将人眼视觉系统特性引入客观评价方法,以改进其不足。本文在借鉴现有
面向对象的存储系统(Object-Based Storage System, OBS)由三部分组成:客户端,元数据服务器,对象存储设备。元数据服务器存放和统一管理数据的元数据,而对象存储设备存放真正
无线传感器网络MAC协议决定其无线信道的使用方式,在传感器节点之间分配有限的无线通信资源,用来构建无线传感器网络系统的底层基础结构。无线传感器网络MAC协议对整个无线传感