面向大规模交互式分析的MapReduce优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:sarah_zld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据呈指数级增长趋势使得大数据问题受到广泛关注。与传统的海量数据相比,大数据更强调数据的潜在价值,需要强有力的分析挖掘技术才能有效获取这种价值。大数据分析挖掘对大规模并行数据处理技术提出了高性能、高可扩展、高可靠等要求。Map Reduce支持大规模自动化并行、高度自动化扩展、细粒度透明容错,非常适合大数据分析挖掘。目前,Map Reduce技术已经成为大数据分析挖掘的核心技术。Map Reduce应用大量出现,很多机构都在使用Map Reduce来解决他们的应用需求,例如:卫星图像数据清洗、生成倒排索引、用户点击流分析等。然而,Map Reduce最初用于大规模批处理领域,最近才开始转向大规模交互式应用领域。与批处理应用相比,交互式应用有很多不同,这使得最初的Map Reduce系统不能很好地适应。对于交互式应用优化,传统数据库研究领域已积累了大量成熟技术,但数据库的扩展性和可靠性受限。本文的研究动机是利用传统数据管理技术扩展Map Reduce技术,使之更加适合交互式应用需求。本文从Map Reduce框架的执行流程入手,分析了每个执行阶段的优化机会,结合交互式应用的特点,做出了四个方面的优化研究工作,将其总结如下。(1)基于全局索引的Map Reduce作业调度执行优化。优化对象是大规模交互式分析挖掘应用中一类常见的作业类型-条件类作业。原始Map Reduce系统没有针对条件类作业的语义特点进行优化。在已有研究工作基础上,提出了一种基于全局索引的作业调度执行优化策略。优化目标是作业的执行开销和调度开销。前提假设是数据分区全局有序,有针对数据分区的全局索引知识。方法是在Map Reduce处理流程中增加条件分析阶段,并基于全局索引减少需要调度执行的任务规模。实验结果表明我们的策略对条件类作业具有更好的调度开销和执行开销。(2)关注数据本地性的公平任务调度算法。在大规模普通网络集群环境进行数据密集型计算,网络带宽是最稀缺的系统资源。使任务靠近数据执行是非常重要的性能优化原则,该原则在Map Reduce环境下被称为数据本地性原则。数据本地性直接影响着计算效率。交互式计算平台由大量用户共享,需要公平共享资源。在交互式环境下绝对公平对数据本地性影响较大。为此,本文提出一种灵活的公平调度策略,称为K%-公平调度。首先考虑数据本地性,进而考虑公平性。通过调整参数K,可使数据本地性和公平性都得到较好的优化。(3)关注数据本地性的任务调度框架。任务调度阶段,数据本地性是必须要考虑的指标。此外,可能还需要考虑其他因素(如作业长度、作业类型、数据共享、等待时间等)。因此,有必要设计一个关注综合指标的任务调度框架。该框架优先考虑数据本地性,基于数据本地性对任务执行位置进行规划。任务调度阶段若有多个候选任务,基于综合指标函数对候选任务排序,调度最靠前的任务。(4)关注集群计算效率的作业调度算法。作业调度算法规定了所有提交作业的执行顺序。研究主要针对大量突发性负载模式。这种负载模式下,影响机群计算效率的因素主要包括三个方面:数据本地性、负载均衡性、资源使用的流水并行性。若没有作业调度,使全部作业都可获得资源,数据本地性和负载均衡性很容易保证。这将导致大量作业恶意争用共享资源,影响不同类型资源之间的流水并行性。作业调度控制了作业的并行度,进而控制了可调度的任务规模,这种情况下很难同时保证数据本地性和负载均衡性。针对这种情况,本文首先限制任务调度遵循严格数据本地性原则。进而,以负载均衡性为标准优化作业选择算法。
其他文献
<正> 世人皆知,珠算在日本获得“运算工具之王”的美称。算盘的使用量在日本占包括电子计算机在内所有计算工具的83.4%。珠算对日本的经济发展国家的繁荣富强起到了至关重要的
随着我国严峻的环境问题及可持续发展战略的提出,突显出建立湖泊环境会计核算模式的必要性和急迫性。我国湖泊环境会计应采用“主体-附属-卫星”三位一体账户体系模式进行核算与
本文对单卧轴系列混凝上搅拌机进行了分析研究,提出在保证搅拌质量的前提下,以搅拌功率最小为目标函数,建立了单卧轴搅拌机参数的优化数学模型。利用优化数学方法编制了计算
在珠算乘法中,若能掌握数字间的变化规律并能热练地运用,就可以节省时间,达到速算的目的。这里我着重谈谈九倍数的速算方法,供大家参考。
本文介绍了堆焊材料、堆焊方式、堆焊参数优化、扩大堆焊的用途等方面的新技术,阐述了这些新技术的建筑机械维修和制造领域的应用。
本文推出了一种适合于双螺杆式无油真空泵的单头变螺距梯形级齿凹齿面的螺杆转子型线,介绍了基本型线的生成原理和齿型的构造方法,给出了完整的型线方程和型线的一些特征参数
混凝土钻孔机在工程中的应用河南省轻工业研究所张凯一种在建筑安装工程中可以取代人工凿孔和预留孔的新型钻孔工具--混凝土钻孔机近年来受到了普遍的重视和欢迎。混凝土钻孔机
目的讨论微创经皮克氏针撬拨复位锁定钢板内固定治疗肱骨外科颈骨折。方法选取2015年6月~2017年6月本院收治的肱骨外科颈骨折的患者40例,按照抽签方法将其分为对照组和实验组
ZL50C装载机变速箱的修理装配广西冶建机械化施工公司王纪波柳州工程机械厂生产的ZL50C装载机变速箱采用行星式液压换档。在修理装配过程中,如不注意其结构和装配特点,装复使用后,往往会出
本文研究了在液流连续体系中还原汞,避免了用SnCl_2易生成偏锡酸沉淀的缺点,因此可用来测定和连续监测环境水中的汞,在0.5—6ppb范围内有良好的线性关系,检出限为0.1ppb. In