面向Spark Shuffle算子的任务调度器优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:leijugui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的盛行以及分布式计算技术的逐渐成熟,运用分布式技术来进行数据的高效分析已成为了各企业的研究热点。近年来,随着内存计算的不断发展,Spark被广泛应用于大数据处理领域。Spark中的任务调度器决定了任务的数据分配以及任务执行路线,能够直接影响整个集群的执行效率。因此,开展对Spark任务调度器的优化研究能够提高Spark集群的性能。分析了目前Spark任务调度器未充分考虑洗牌(Shuffle)算子的数据分布敏感性和中间数据分布特性而导致的调度次优问题,给出了一种面向shuffle算子的任务调度器优化方法,采用代价估算的方式来选取较优分区数,能根据数据分布特点选择合适的分区策略和任务执行节点。在Spark 2.1.0版本上实现了以上任务调度器优化方法,主要工作包括4大模块:系统参数收集模块、shuffle算子识别模块、数据分布感知模块和调度优化模块。给出了数据分布抽样算法以获取中间数据分布信息;提出了shuffle算子点识别算法以获取shuffle算子点信息;结合算子特性、数据分布特性和集群参数构建了代价估算模型并给出了合理的分区数决策算法;针对数据倾斜场景,给出了基于分布感知的数据均衡分区方法;结合中间数据在各节点上的分布情况,给出了一种基于数据本地性的任务节点分配策略。分别针对不同算子类型,对此调度优化方法在数据倾斜场景与非倾斜场景下的优化效果进行了实验验证。其实验结果表明,与Spark默认调度方式相比,本调度优化方法在数据倾斜场景和非数据倾斜场景下的迭代型应用中都存在明显的优化效果。
其他文献
视频标注技术能够分析视频所包含的信息,理解视频内容,对视频进行标注,并达到与人相媲美的准确度。随着互联网上视频规模的日益庞大,这使得迫切需要研究相关算法为用户找到其感兴趣的视频,而这些算法的研究都离不开视频标注,因此视频标注技术具有重要的意义。基于视觉特征的视频标注算法通过卷积神经网络提取视频帧的特征,然后随时间聚合帧特征,最后进行视频标注,但这种方法不仅在视频帧特征聚合时没有考虑到每个帧对于视频
雾霾天气下,许多交通场景都需要测量当前场景的能见度。传统方法一般都使用相关的硬件设备测量或者直接的人眼估计等方法。这些方法的往往具有硬件成本高、测量不够精确等缺点;不仅如此,由于其成本的限制,往往难以普及,无法及时地对特定场景的能见度进行测量。因此,本文提出了一种基于视频图像的测量方法,所提出的方法通过直接获取现有交通摄像头获取视频图像来计算能见度值,不需要额外硬件投入并且测量准确等优点,因此具有
近些年来,各种高传染,高致病性公共卫生问题频发,从2014年非洲爆发的埃博拉病毒到2019年底蔓延全球的新型冠状病毒,无一不极大的危害了人类社会的发展以及市民的身体健康。为了获得足够的防护,各种医用卫生用品的需求量激增,据统计,新冠肺炎爆发期间,国内的口罩单日产量可达7600万只,其数量十分庞大,却依旧无法完全满足国内需求。不难发现,在我国口罩等个人卫生防护用品的生产占据着很大的市场,因此围绕着相
比特币的出现掀起了区块链技术的热潮。随着不断的普及和推广区块链技术,其安全问题也日渐引人关注,如果无法保证区块链的安全性能将会影响其未来的应用和发展。Fabric平台的出现,满足了对特定行业的多种多样的需求,并引入了这个领域内的开拓者的经验。但是,fabric在其加密模块的设计上有一个很致命的问题,在最新的1.4版本乃至之前的版本都没有提供一套国产商用密码算法的支持,这将会极大地阻碍fabric在
乳腺癌是妇女癌症中最常见的一种,其中乳腺钙化灶的出现,是存在早期乳腺癌的重要信号。早发现,早诊断,早治疗能够在一定程度上降低乳腺癌的致死率。目前在临床上,进行乳腺癌早期筛查的主要手段是乳腺X线摄影技术,在乳腺钼靶图像中,钙化灶通常表现为较亮的点状区域,但由于钙化灶通常非常小,以及与周围环境之间难以分辨,使得钙化灶特别是微钙化灶的检测对于放射科医师来说,仍然存在一定的困难。同时有经验的放射科医生一般
情感分析是自然语言处理的一个重要领域,传统的情感分析是不考虑文本之间的链接关系的,然而现实世界中我们所分析的文本都是存在一定的链接关系的,例如在社交网络的场景中,我们就能够使用用户和用户的关注关系来获得文本之间的联系,然而一般的在社交网络中进行情感分析的方法却很少利用这些信息,或者是使用用户相似性去衡量文本的相似度。但是这些方法无法区分同一个用户下的不同文本的关注点。针对社交网络中情感分析的问题,
在中考语文能力的评测方式中,作文是最有代表性的测评能力的方式。在对语言能力的考试中,作文更是不可缺少的题型。相比于其他题型,作文占的分值之大使得在它的批改工作上,公平性和客观性必不可少。然而,作文篇幅长、识字困难、教师情感波动等因素导致语文作文的批改工作的难度大大提升。因此,有必要基于现有的人工智能技术和自然语言处理技术,通过对作文人工评卷过程的分析,设计并实现一套有实用价值的中考语文作文评分建议
由于云计算技术的快速发展,信息产业的商业模式也发生了巨大的改变,数据库外包逐渐成为数据管理的新范式。将数据外包到第三方云服务提供商,不仅能够在很大程度上降低企业和个人的成本和计算负担,而且可以提高资源的使用率。然而,第三方云服务提供商并不完全可信,数据在外包存储、管理和对外提供服务的过程中面临泄露、篡改的风险,这使得数据查询结果不可靠。数据库外包所带来的安全和隐私方面的问题已经成为外包数据库更广泛
随着科学技术的高速发展,学术信息爆炸式增长,相当多的学术网站不断涌现。这类学术网站主要关注学者的研究领域、学者间的合作关系等,为人员合作和科研合作奠定基础。由于学术型网站的内容主要是学术论文,如何从论文中抽取属性并进行推理分析是需要解决的关键问题。根据异构学术网络的特点,基于机器学习构建了合作关系预测模型。整个模型包括以下部分:首先,针对异构学术网络丰富的语义信息特点,设计了基于元路径的结构特征抽
移动互联网、物联网、云计算等技术的发展和运用,推动了线上医疗行业的发展。云环境下医疗大数据不仅提高了医疗咨询的精准度,而且打破了地域的限制,给患者就诊带来了便捷。一方面,由于医疗大数据云端存储,云服务器的安全无法保障,另一方面,医疗数据具有很大的研究价值,数据发布必不可少,系统中包含大量患者隐私信息,因此研究如何保护医疗数据保密性以及隐私性有重要的意义。通过现有方案的研究与分析,提出了一种基于云环