一种基于MPI和MapReduce的分布式向量计算框架的研究与实现

被引量 : 0次 | 上传用户:wjbbio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是近20年来兴起的多领域交叉学科,涉及多门学科,诸如概率论、统计学、逼近论、凸分析等等。机器学习算法目前已经有了广泛的应用,例如数据挖掘、自然语言处理、搜索引擎等等。当前各种机器学习算法已经有开源的单机实现,但是随着互联网的高速发展,用户数据量急剧增加,单机实现已经不能满足工业界的需求,为了满足算法的高性能实现,开发人员需要利用MPI, Hadoop/MapReduce等计算框架开发并行程序。MPI效率高,编程灵活,扩展性好,适合高性能计算,然而也存在一些缺点:MPI接口众多,学习成本高;当前使用MPI实现高性能程序时,往往需要考虑数据切分、网络通信等问题,缺少类似MapReduce的计算模型,增加了程序员的负担;算法实现专有化不利用代码复用,缺少统一抽象的分布式数据结构;程序容错性较差。针对以上缺点,本论文综述了MPI容错方案和MapReduce的应用与改进,结合抽象向量接口设计,提出了一种MPI下基于向量和MapReduce的分布式计算框架。该框架将机器学习算法中的矩阵操作抽象成为分布式向量的操作,同时结合异步收发提高网络传输效率,尽可能重叠CPU计算和网络收发。在此基础之上,引入checkpoint机制,增加多轮迭代算法的在MPI环境中的容错性。为了验证程序的效率和正确性,选择了PageRank算法进行对比实验。实验证明,本论文提出框架适合并且能有有效解决符合MapReduce模型的机器学习算法的分布式实现问题。
其他文献
移动应用的更新一般是通过下载完整的安装包,再重新安装应用,来完成应用的更新。这种更新方式耗费极大的网络带宽和时间,提高了软件更新的周期是移动应用开发中有待解决的重
不同时期、不同地域的逻辑思想是逻辑史研究的重要内容之一。中国古代有丰富的逻辑思想,其中由于中国古代的历史发展本身就是一个不同民族不断融合的过程,其历史的发展演变中当
在中等碱度条件下 ,用亚硫酸钠来改进被铜活化的闪锌矿与黄铁矿的分离。改进的原因是亚硫酸钠对黄铁矿的抑制作用比对闪锌矿的抑制作用要强得多。矿浆与氧气调浆和缩短添加亚
求生是人类的本能,谁也不愿意轻易放弃自己的生命。但是,如果一个生命只剩下痛苦,备受病痛折磨直至生命的终止是否就等于尊重生命呢?我们到底有没有终止一个痛苦生命的权利?因此,安
怎样能做出好广告赵德海译做广告首先是设计上要决定的事也是最重要的事,就是怎样置定你的产品在市场中的位置。在英语中“positioning”这个字近来很时髦,人人都说这点很重要,但究竟这是什
臣民与公民的本质区分并不在于是否拥有法律文本意义上的权利 ,也不完全在于实际权利的是否享有 ,关键在于是否具有自觉、理性、强烈、持久的权利意识。在由臣民向公民的角色
随着互联网的普及和电子商务的发展,在网络营销受到重视、网民消费观念转变的影响下,不少商家以寻求新的销售增长点。网络节日营销作为一种新兴的营销方式,它在传统营销理论
以家具中的甲醛为研究对象,阐述了甲醛在环境中的释放机理及行为、环境毒性、对生物体的危害及其降解途径,强调了开发无甲醛家具产品的重要性。