基于MapReduce的奇异值分解方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaotian521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络信息量呈现出快速增长的趋势。人们当前所面临的问题是,如何从当前的海量数据中获取有价值的信息。奇异值分解(SVD)技术在信息分析应用方面表现出强大的生命力,在众多科学计算领域中具备极高的应用价值。然而,由于SVD算法的计算效率问题,使其难以在很多对于系统实时性要求较高的工程应用中直接使用。虽然硬件技术一直在发展,计算机的计算能力在不断提高。但是,计算机硬件发展的速度远远跟不上信息的增长速度。面对海量数据的分析任务,单机计算模式已经无法满足应用的需求。MapReduce分布式并行编程模型在时代背景的需求下应运而生。MapReduce编程模型擅长处理海量数据的分析和计算问题,能够有效地利用集群计算的优势缩短算法的计算时间。  针对分治策略求解SVD算法的特点,提出了一种适用于MapReduce编程模型的两阶段式的任务调度策略。对不同规模的矩阵分别采用逐层迭代以及多Job流水线式的任务调度策略,结合两种方式各自的优点,有效提高算法的运行效率。  分治法SVD算法分为分治和合并两个大步骤。设计了一种基于行索引的快速矩阵分治算法。并针对合并过程的每个数学推导步骤,设计了有效的并行化方法。矩阵相乘是整个算法执行过程中时间复杂度最高的计算步骤,提出了一种适用于分治法SVD的分块矩阵相乘方法。  通过开展多项实验来评估上述方法,实验结果验证了上述方法的有效性。在处理大规模的矩阵奇异值分解的计算时,相对单机版的分治法SVD算法获得了较高的加速比。实验结果进一步表明,基于MapReduce的分治法SVD算法具有高度的可扩展性。
其他文献
由于信息技术的发展和激烈的竞争,独立、零散的办公自动化系统和计算机应用已不能满足人们的需要,而综合、集成化的解决方案日益成为企业所需。作为一种对常规性事物进行管理、
本文通过对时间规划中R_时刻表这个主题的深入探讨,以时间关系矩阵为基础,给出了R_时刻表算法的详细步骤,并设计了一个通用的时间规划系统,将时间规划应用于大学课程和田径运动会
学位
随着Internet的快速普及,Internet已经在社会政治、经济、文化、军事等领域中发挥着越来越大的作用。与此同时,在全球范围内,对计算机及网络基础设施的攻击行为也已经成为一个越
分布式并行文件系统已经成为高性能应用领域不可缺少的组成部分,在实际应用环境中,面向的往往是大规模的客户端,在大量客户端IO密集型应用并发地访问服务器时,数据服务器的IO请求
随着国内电信垄断格局的打破,各电信运营商间的竞争也越来越激烈。为了在竞争中争得先机,企业将越来越需要有一套迅速灵敏、功能强大的系统,有针对性地制定政策,适时拿出各种促销
密钥生成是密钥管理的研究内容,密钥安全是一切安全密码系统的基础,在执行密码协议前必须先生成密钥。为了进行分布式计算等操作,我们需要提高密钥生成的效率,基于椭圆曲线密码系
移动自组网络,又称为移动Ad Hoc网络,因其无需预设网络设施、可快速组网、抗毁性强的特性,使其成为数字战场通信的首选。然而由于移动自组网的固有特性,使得这种网络更容易遭到安
为了解决搜索引擎中的语义不匹配问题,本文在总结信息检索中查询扩展技术基础上,将基于词表的查询扩展技术引入到主题搜索引擎中。由于主题搜索引擎处理的是Web页面集,主题词库
传统的Internet网络基于TCP/IP协议,基于TCP/IP协议的数据访问需要底层的物理链路具有持续的端到端连接,往返延时短,数据传输速率对称,误码率低。随着移动设备和无线网络技术的发