基于Flink的大规模矩阵计算库的设计与实现

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:hhkkpump
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  矩阵计算在大规模数值分析、社交网络、图像渲染等领域都扮演着重要的角色。大数据时代,随着应用的数据规模不断增长,需要处理的矩阵的大小也变得越来越大,以至于传统的单个节点的处理方案难以解决问题。一些大规模分布式并行计算框架(如Hadoop、Flink等)的出现为解决大规模矩阵计算问题提供了良好的计算平台。基于Flink内存计算的特性,本文基于Apache Flink设计并实现了一个大规模矩阵计算库。该矩阵库为用户提供了高层矩阵计算接口,例如矩阵的加法、减法、相乘、求逆等运算。在处理矩阵相乘的时候,本文设计了并行化矩阵计算方法并结合Flink和算法的特点设计了三种优化手段以提升不同维度规模的矩阵相乘运算的性能。此外,对于大规模矩阵求逆计算,本文还提出了一种优化手段以减少Gauss-Jordan消元算法所带来的多轮迭代。实验表明,本文提出的基于Flink的矩阵分块相乘比基于Spark的分块相乘提升了30%左右的性能;而经本文优化后的Gauss-Jordan求逆算法比未优化的算法提升了4倍的运算速度。此外,本文设计的分布式矩阵计算库还具有很好的可扩展性。
其他文献
  当前,商业智能、社会管理、科学计算等多个领域的大数据处理应用都蕴含了高性能、低延迟的需求,对传统数据处理设施带来了高时效计算挑战,迫切需要在大数据的存取方法、处理
该研究以延迟焦化工艺为背景,以炼厂常规分析数据为依据,借鉴结构导向集总的方法以含有14个特征值的向量来构造分子,利用蒙特卡罗方法对原料油进行表征,将其转化为1000个分子
  MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作。现有的基于MapReduce的多表连接算法,在处理链式连接时,或者不能处理多个大表的
会议
  互联网技术的高速发展促进了关键应用的互联网化,以及互联网应用向传统的金融、商业、物流、交通、旅游等行业延伸和渗透。应用模式的转化不仅产生了多源、分布、异构的海
会议
  许多大数据应用如在社交计算、模式识别、推荐系统和自然语言处理等均可以通过大规模基于图结构的计算进行处理,因而如何设计面向大规模图数据处理的系统软件成为当前的一
  针对企业风险预警这一难题,提出了以网民为企业"传感器"的思想,基于互联网上的相关在线信息,通过情感分析处理,以及统计网民信息发布频次,融合后形成"传感器"信号,涵盖了与公司
  移动互联网络服务已经广泛深入到人们的日常生活。在提供日益精准和便捷服务的同时,用户身份、兴趣、位置、习惯、敏感数据等隐私泄露的问题也日益严重。我们将给出一种移
  大数据的计算主要是数据密集型,大多表现为图、树的搜索和排序等。数据常为非结构化,不规则且不能用关系数据库表达。现阶段运行于云计算平台的大数据处理系统如Hadoop和Sp
  公共安全是社会尺度下公民得到的外部环境和秩序的保障,其管理水平在一定程度上反映了一个国家或地区的公共服务水平。近年来,由于国内不同地区收入差距的加大、以及周边政
会议
会议