CH-Spark分布式计算平台的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liyanhao1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行业数据的不断积累,数据处理难度也越来越大。因此需要借助分布式系统进行数据处理。传统分布式系统提供了基础解决方案,但其性能有待优化,并且其上的应用场景也有待丰富。本文基于Spark系统,一方面从性能角度,优化了分布式计算系统在异构集群下的效率问题,另一方面,扩展了分布式中文NLP计算能力。性能角度,原生Spark调度策略的实现基于集群同质化假设,但随着数据中心的硬件更迭以及高性能元件引入,集群异质化现象日趋显著。实验表明Spark原生调度策略在异构集群环境下效果较差。针对该问题,本文提出一种新的调度策略,优化了Spark在异构集群下的表现。新策略引入创新的分层调度思想,通过在调度时综合量度任务复杂度、节点性能及节点资源使用情况等因子,实现了高效公平的任务调度算法。中文NLP扩展角度,Spark仅提供基础分布式计算能力。要实现分布式NLP,需要大量重复性编码工作,且大量开源算法和模型等无法与系统RDD结构兼容,使其效率受限,有的甚至无法在Spark实现分布式计算。因此本文基于新引擎,提出了与Spark底层RDD结构匹配的框架,并结合了主流的机器学习模型和算法,同时在应用层提供了较好的扩展性和接口。本文优化后的系统,命名为CH-Spark,采用了集群分层的思想,实现了异构集群下的高效公平调度策略,且在此基础上构建了基于RDD底层结构优化的高效分布式中文NLP框架。实验证明新系统较之于Spark有明显性能提升。
其他文献
[摘要]创业已经成为未来大学生发展的主要趋势,医学生作为大学生群体的一部分,已经成为了创业的主要力量,很多医学生甚至放弃工作,选择自主创业,想通过创业来实现自己的人生理想,但是由于很多医学生缺乏创业能力,只是盲目地创业最终导致失败,文章通过分析医学生创业能力缺失的原因,通过对医学生开展创新创业教育、提高医学生对创业的认识和加强医学生自身专业素质培养等方法来培养医学生创业能力,帮助医学生成功创业。 
腭裂系先天性发育畸形,致畸原因包括遗传和环境两大方面,本文报告1例发生不完全性腭裂的双胞胎试管婴儿,虽然通过第三代试管婴儿技术可降低遗传性疾病的发生,但仍高于正常受
县级人力资源和社会保障统计部门采集的数据信息是县级人力资源和社会保障局相关领导做出决策的重要依据,该决策与人力资源的开发利用、切身利益息息相关。相关人员应做好县
细菌反硝化法是目前同时分析天然水中硝酸盐氮、氧同位素组成的最新方法。该方法包括反硝化菌的选取与培养,利用反硝化菌将硝酸根完全转化成N2O气体以及N2O气体的提取、纯化和
预算管理是企业生产经营管理中非常重要的手段,对于企业的生存发展起着重要的作用。加强全面预算管理的审计监督,是进一步规范烟草行业全面预算管理、落实审计工作全覆盖、提升