基于Spark的大规模矩阵算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yvedy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着移动互联网的不断发展,语音、图像、视频等数据不断增长,海量数据处理成为新的挑战。作为大数据处理平台的事实标准,Hadoop及其生态系统为海量数据处理提供了丰富的应用和工具。海量数据推动着众多的机器学习和数据挖掘算法并行算法快速发展。矩阵算法作为众多算法的基础,其并行实现尤其重要。Spark弥补了 MapReduce框架在迭代计算中的缺陷,并且和Hadoop生态系统完美融合,是实现并行矩阵算法的最佳选择。首先,本文中基于Spark构建了一个小型的并行矩阵库。该库包含有行矩阵、分块矩阵等并行矩阵表示形式,并在此基础上实现了并行矩阵加法,并行矩阵乘法的基本矩阵运算。并行矩阵乘法是并行矩阵算法的核心,本文根据Spark的特点改进已有的并行乘法。然后,基于该矩阵库,本文设计并实现了稠密矩阵的矩阵并行求逆算法和二对角矩阵的并行SVD算法。大规模矩阵求逆是一个计算密集型和IO密集型的矩阵运算,我们通过良好的设计减少空间复杂度和网络传输。大规模二对角矩阵SVD算法也是计算密集型的。结合已有的分治法求解二对角矩阵的SVD算法,本文提出了基于Spark的大规模二对角矩阵SVD算法。本文通过延迟计算矩阵大幅降低了网络传输消耗。本文提出的算法和实现将为设计高性能的Spark矩阵库提供了良好的参考。
其他文献
随着经济和社会的发展,中国的住宅建设进入了新的发展阶段,住宅的转型问题开始受到关注。同时,随着人口老龄化程度的进一步提高,住宅的适老化设计的需求不断增强。文章基于这
如今,我们已经迈入自媒体时代,有了它的参与,我们的社会生活发生了翻天覆地的巨大变化。普通民众利用自媒体传播各种信息,使得人与人之间的距离越来越短。然而,在这些传播的
首先从地缘政治和能源安全的角度分析丝绸之路经济带提出的宏观背景,然后通过与周边省区的对比提出西安在丝绸之路经济带的战略定位,接着从西安与中亚国家工业互补性分析,得
配网现有的设备巡视策略,通常是固定周期、全面点覆盖,这样模式存在巡维工作量大、重点不突出、针对性不强的弊端,同时缺乏一种全面的巡检方法,工作记录多而杂;此外巡检计划
从远古狩猎、采集时代起,鱼一直与人密切相关,甚至成为人类赖以生存的食物之一。据有关文献记载,我国自殷商末年已有池塘养鱼的说法。但系统的文字记载,最早还是见于春秋时范
期刊
跨间隔数字化电量不平衡作为智能变电站经常发生的问题,严重的影响到数字电能计量系统的应用推广。现急需对这一现象进行研究,以解决跨间隔数字化计量的工程应用问题。
施工企业的主要目标是在保证施工工期和工程质量的前提下获得更多的经济效益,因此,控制电气工程的施工成本,提高工程预算的准确性也成为了施工企业的首要任务。
在城市轨道交通设计中,大功率设备起动时电压下降的计算是电气设计的一个重要组成部分,这关系到整个系统是否能安全合理地运行,并牵涉到变电所、跟随式变电所以及环控电控室
<正> 解决问题是高级形式的学习活动,创造性是解决问题的最高级表现。解决问题的技能和创造能力的培养是学校教育的重要目标之一。当前,在为我国社会主义“四化”建设培养急