CH-Spark分布式计算平台的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：liyanhao1986

【摘要】

：

【作者】

：

徐佳俊

【出处】

：

上海交通大学

【发表日期】

：

2020年03期

【关键词】

：

Spark 异构集群调度策略 NLP 机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着各行业数据的不断积累,数据处理难度也越来越大。因此需要借助分布式系统进行数据处理。传统分布式系统提供了基础解决方案,但其性能有待优化,并且其上的应用场景也有待丰富。本文基于Spark系统,一方面从性能角度,优化了分布式计算系统在异构集群下的效率问题,另一方面,扩展了分布式中文NLP计算能力。性能角度,原生Spark调度策略的实现基于集群同质化假设,但随着数据中心的硬件更迭以及高性能元件引入,集群异质化现象日趋显著。实验表明Spark原生调度策略在异构集群环境下效果较差。针对该问题,本文提出一种新的调度策略,优化了Spark在异构集群下的表现。新策略引入创新的分层调度思想,通过在调度时综合量度任务复杂度、节点性能及节点资源使用情况等因子,实现了高效公平的任务调度算法。中文NLP扩展角度,Spark仅提供基础分布式计算能力。要实现分布式NLP,需要大量重复性编码工作,且大量开源算法和模型等无法与系统RDD结构兼容,使其效率受限,有的甚至无法在Spark实现分布式计算。因此本文基于新引擎,提出了与Spark底层RDD结构匹配的框架,并结合了主流的机器学习模型和算法,同时在应用层提供了较好的扩展性和接口。本文优化后的系统,命名为CH-Spark,采用了集群分层的思想,实现了异构集群下的高效公平调度策略,且在此基础上构建了基于RDD底层结构优化的高效分布式中文NLP框架。实验证明新系统较之于Spark有明显性能提升。

其他文献

基于语文核心素养的汉字教学

语文教学起步于汉字学习,义务教育阶段,国家课程标准有明确的阐述,四个学段都有“识字写字”部分的明确要求。2017年的高中语文课程标准指出:“全部的语文学习活动中,积累汉

期刊

汉字教学语文教学义务教育阶段国家课程标准汉语发展素养语文学习活动语文课程标准

创业型经济视角下的医学院校大学生创业能力培养

[摘要]创业已经成为未来大学生发展的主要趋势，医学生作为大学生群体的一部分，已经成为了创业的主要力量，很多医学生甚至放弃工作，选择自主创业，想通过创业来实现自己的人生理想，但是由于很多医学生缺乏创业能力，只是盲目地创业最终导致失败，文章通过分析医学生创业能力缺失的原因，通过对医学生开展创新创业教育、提高医学生对创业的认识和加强医学生自身专业素质培养等方法来培养医学生创业能力，帮助医学生成功创业。　

期刊

医学生创业能力

试管婴儿双胞胎发生不完全性腭裂口外1例报告

腭裂系先天性发育畸形,致畸原因包括遗传和环境两大方面,本文报告1例发生不完全性腭裂的双胞胎试管婴儿,虽然通过第三代试管婴儿技术可降低遗传性疾病的发生,但仍高于正常受

会议

试管婴儿双胞胎不完全性腭裂

限价房逆市热销

在冷清的楼市中，限价房的表现可以说是“一枝独秀”。根据广州市国土房管局的统计数字，广州楼市成交量已经从往常每月的近70万平方米下降到目前的不足40万平方米，今年2月更是萎

期刊

限价广州市国土房管局热销统计数字销售情况平方成交量成交率

试论如何做好县级人力资源和社会保障统计工作

县级人力资源和社会保障统计部门采集的数据信息是县级人力资源和社会保障局相关领导做出决策的重要依据,该决策与人力资源的开发利用、切身利益息息相关。相关人员应做好县

期刊

县级人力资源和社会保障统计工作

张镜和《刺疔捷法》

张镜，清代医家。字蓉亭。江苏吴县人。成丰十年（1860年）获刺疔疗法的书稿，该书由浙江慈溪刺疗医家应侣笙的后代提供。此后，张镜又于他处购得刺疔刻本，据此对书稿进行校勘，并删繁就要

期刊

古籍《刺疔捷法》张镜书评

自然篇之刀、契等

古文字形象带把儿的刀。远古时期,生产、生活的工具也可用来作兵器,刀就是这样一种工具。古代文献中刀还常和笔相提并论,如《史记·萧相国世家》:“萧相国何,于秦时为刀

期刊

汲黯张汤刀笔吏古文字古代文献萧相国世家

细菌反硝化法同时分析天然水中硝酸盐氮、氧同位素组成研究

细菌反硝化法是目前同时分析天然水中硝酸盐氮、氧同位素组成的最新方法。该方法包括反硝化菌的选取与培养，利用反硝化菌将硝酸根完全转化成N2O气体以及N2O气体的提取、纯化和

期刊

细菌反硝化硝酸盐氮同位素氧同位素

论烟草商业企业全面预算管理审计

预算管理是企业生产经营管理中非常重要的手段，对于企业的生存发展起着重要的作用。加强全面预算管理的审计监督，是进一步规范烟草行业全面预算管理、落实审计工作全覆盖、提升

期刊

烟草企业管理全面预算管理审计

让家居环境更和谐 HTPC机箱选购面面观

在传统DIY领域，很多人装电脑前会对其它硬件斟酌再三，而机箱通常会在卖场现挑现买。装机前就确定自己要什么机箱的人只是少数，而组建HTPC的时候情况则正好相反!HTPC并不是一个普

期刊

PC机箱家居环境和谐选购HTPC家庭影院

CH-Spark分布式计算平台的研究

其他学术论文