大数据分析的分布式MOLAP技术分析

来源 :大科技·C版 | 被引量 : 0次 | 上传用户:shiguangli010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着科学技术的进步,计算机也得到了高速发展。但是,现阶段由于大数据的规模影响,导致计算机对数据的存储、分析以及管理还存在很多问题。分布式文件系统可以有效的解决计算机的这一问题,尤其是在大数据分析模式下,分布式MOLAP技术的应用,有效的降低了计算机在进行数据存储和分析阶段受到大数据规模的影响。本文将重点基于大数据分析的前提下,对分布式MOLAP技术进行分析,为相关工作提供参考。
  关键词:大数据分析;分布式MOLAP技术;分析
  中图分类号:TP311.1 文獻标识码:A 文章编号:1004-7344(2018)17-0293-02
  1 引 言
  计算机技术、互联网技术以及大数据分析都是近年来科学技术发展的产物。但是,随着时代的进步与发展,数据信息呈现爆炸式的增长,给数据的处理和分析带来了极大的挑战。如果处理不当,会对相关企业造成巨大的经济损失。分布式MOLAP技术能够对多维度的数据结构实现信息分类分布,可以有效的处理大数据的规模化的影响,在大数据分析领域应用十分广泛。因此,分析研究分布式MOLAP技术具有重要的现实意义。
  2 大数据分析的分布式MOLAP技术的重要性
  分布式MOLAP技术的实现,需要通过程序编辑模型MapReduceh,因此MOLAP技术又被称作DOLAP。虽然大数据分析的分布式MOLAP技术还存在很多的问题,在实际的使用阶段,还存在很多制约因素导致其结果产生偏差,但该项技术在大数据分析当中具有以下几点重要作用:
  (1)确保了大数据分析的准确性:由于大数据的内容十分广泛,包含了很多领域的数据信息,传统的数据处理工作繁重复杂,很容易出现差错,导致大数据分析的结果存在一定的误差。采用分布式MOLAP技术,通过将大数据进行分类,可以有效的提升数据处理的工作效率,减少相关数据处理的工作量,确保了大数据分析的准确性。
  (2)降低了大数据分析的难度:通过分布式MOLAP技术,可以实现对大数据的分类简化,将一些杂乱无用的数据信息进行剔除,降低了大数据分析的难度。
  3 大数据分析的分布式MOLAP技术模型建立
  通过建立多维度的数据模型,可以实现大数据分析的分布式MOLAP技术。该项技术的主要工作内容就是维和事实。利用这两方面的相互结合的特点,成为了大数据分析的理论基础和便利条件。因此,分布式MOLAP的核心就是确定维和事实之间的映射关系。
  传统的ROLAP技术,通过关系数据库以及星型模型,实现了对维和事实的区分,达到了将二者分开储存的目的,最后借助外键,对维和事实的映射关系进行确定。随着科学技术的发展,数据的存储量越来越庞大,大数据更加的多样化和复杂化,采用传统的ROLAP技术,工作效率很低,无法满足社会相关部门的对大数据分析的需求。分布式MOLAP技术的出现,解决了这一问题,因此在大数据分析中应用日益广泛。在进行分布式MOLAP数据模型建立时,应注意以下要点:
  3.1 维信息
  通过建立多维度的数据模型,对数据库中的数据进行简单的分类,维将所有的数据项分类至一个无重叠的数据结构中,并且提供数据项的筛选、组织和标识方法。因此,在建立分布式MOLAP数据模型时,对维信息的内容和数据进行简化,应遵循以下约束条件:
  (1)维有且只有1个维层次;
  (2)维是由多个维级别组成的集合。可以记作{a1,a2,…am},设ai(i∈[1,m])为任意一个维级别,则,i仅包含1个维属性,且包含ni个维值;
  (3)维可以被当作是各维级别的属性取值,所组成的属性结构。处于同一级别的节点存在相同数量的子节点。
  3.2 度 量
  度量是一个独立变量,它是分布式MOLAP技术分析的参考维值分析对象。度量所参考的是指维当中,最低级别的维值。
  3.3 单元格
  单元格,是由不同的度量组成的,且这些度量都是以相同的维值作为主要的参考对象。
  3.4 实例分析
  以广东省某运营商网络的通话记录为例,可以根据通话记录的特点,建立以下维度的设置:短信类型、品牌维度、城市维度、漫游标志维度、通话类型维度、时间维度等。根据通话的长度以及收费情况,作为分布式MOLAP的度量。
  (1)短信维度的分级设置:普通短信、短信批发、网站短信、彩信等四个维度;
  (2)品牌维度的分级设置:根据运营商的套餐品牌进行划分,包含大概23个品牌维度;
  (3)城市维度的分级设置:按照广东省的不同城市进行划分,包含广州、深圳、珠海等22个城市维度;
  (4)漫游标志维度的分级设置:根据客户通话时的漫游标志,包含不漫游、省内漫游等7个漫游标志维度;
  (5)通话类型维度的分级设置:根据客户通话的类型进行分级,包含省外长途、省内长途、国际长途等9个通话类型维度;
  (6)时间维度的分级设置:按照小时进行时间维度的分级设置。
  4 大数据分析的分布式MOLAP技术维编码的算法及数据的存储
  4.1 维编码的算法
  一般情况下,维编码的算法具有两种表现形式:十进制和二进制。
  (1)二进制:又称为位图编码,它利用不同编码的拼接,实现了对维级别信息的概括,对维的遍阅则通过位置的移动来实现,但此种算法相比较十进制,还存在计算不详细的缺陷;
  (2)十进制:采用这种算法,通过对每一个维级别的维值进行编码,数据编码较为详细,但是无法实现编码和维值之间的映射。一般情况下,为了避免细数,降低错误产生的几率,分布式MOLAP技术都采用这种算法。
  例如:如果a是维信息d的一个维级别,采用十进制进行编码方法如下:
  Input:Dimension d:A targel dimension;
  Function:Dimension Coding;
  1.FOR i=1 TO |a(d)|;
  2.FOR j=0 TO |md(ai)|-1;
  3.Dimension value of V■■∈md(ai)
  4.V■■.code=j;
  5.END FOR
  6.END FOR
  4.2 数据的存储
  分布式MOLAP技术,在进行数据存储工作时,需要大量的存储空间。一旦数据立方体(如图1)存在多个维值,很容易造成存储空间不足的情况,造成后续的数据无法进行正常的存储。在此背景下,DOLAP技术的应用,借助计算得到的“多维组数”,不需要进行数据的存储工作,同时也降低了对数据存储空间的需求。此外,DOLAP技术还能够简化维,确保同一级别的维在编码方便处于一致装填。因此,在进行存储时,只需要对相应级别的维信息进行存储,也对存储空间的要求较低。
  5 结束语
  综上所述,随着科学技术的发展,人们对数据的需求越来越高,大数据已经成为人们日常生活必不可分的一部分。现阶段,庞大的数据量导致传统的技术手段已经无法满足时代的发展。分布式MOLAP技术的应用,满足了人们对大数据分析的需求。因此,相关工作者应当深入研究分布式MOLAP技术,掌握并合理运用这项技术,推动大数据分析的进步与发展。
  参考文献
  [1]宋 杰,郭朝鹏,王 智,等.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731~752.
  [2]杨明红,杨振华.分布式MOLAP技术在大数据分析的分析[J].电脑迷,2017(2).
  [3]刘 磊.大数据分析的分布式MOLAP技术要点[J].电脑知识与技术,2018(1).
  [4]张少荣.基于大数据分析的分布式MOLAP技术[J].数字通信世界,2016(11).
  收稿日期:2018-5-11
其他文献
永磁同步交流电机伺服系统的控制策略对精密定位系统的动态和稳态特性有很大的影响。同样,伺服系统的摩擦负载特性、惯性负载特性及柔性负载特性也对系统的性能有重要的影响。因此,深入研究伺服系统的控制策略及负载摩擦、惯量和柔性对伺服系统特性的影响有着十分重要的理论及实际意义。本文的目的是研制一套专用于研究目的的伺服系统试验平台,其意义在于:可在平台上进行各种控制方法及摩擦、惯量、柔性等各种因素对系统特性的影
质量是企业占领市场最有力的战略武器,对企业的生存和发展至关重要,越来越多的企业致力于在质量领域培育其核心竞争力,因此质量管理的理论与方法的创新对于现代企业的发展弥足珍贵。论文以全面质量管理理论为指导思想,以先进的计算机技术和协同工作技术为支撑,通过理论与实践相结合的方法,开发了一个分布式的适于机电产品的并能够在Internet环境下提升企业质量管理水平的全新系统——机电产品远程协同全面质量管理系统
中职教育是目前我国众多教育模式的重要组成部分,是培养专业技能人才和引导学生就业的一个重要途径.数学是一门基础学科,对人的思维发展和生活实践都有着重要的意义.这一意义
期刊
重型立式车床主要用于大型回转体工件的加工,在国防军工、航空航天等国家重点领域的发展中占有重要地位。工作台底座作为立式车床的心脏,其结构的静刚度和动态特性是保障重型
足球作为世界性的体育运动项目,对于人的身体与心理健康发展具有积极影响.在初中体育教学中开设“校园足球”运动,有助于帮助初中生在足球运动中获得身心的全面发展.但是,我
期刊
在新常态全球经济形势之下,政府投资是中国经济快速增长的关键.但是在政府投资迅速增长的同时,我国政府投资项目也出现了很多混乱的现象,例如投资决策的盲目性、招投标存在暗
随着全球经济一体化的发展,信息技术已经全面普及,社会迎来信息一体化。在社会化媒体环境下,微博成为当下的媒体主流,充满着无限的发展机遇,但同时也面临着严峻挑战;广播电台
振动台是一种在实验室内提供典型振动条件或模拟再现环境、用以检验和评价各类工程装置及设备机械力学性能的标准试验设备。其中三轴液压角振动台作为一种独特的振动环境模拟设备在导弹、火箭、卫星等国防工业的发展中有独特的作用。三轴液压角振动台是一个十分复杂的非线性系统,采用单纯的PID控制技术,控制精度不能达到要求。为了使系统的输出能很好的复现期望的响应信号,本文引入了迭代学习控制算法的非线性控制策略,通过对
车轮是汽车行驶系的重要组成部件。当前大部分汽车的车轮均采用铝合金轮毂。汽车铝合金轮毂的失效形式主要是疲劳发生后的断裂破坏。因此铝轮毂的疲劳性能是产品设计的一个重
集成电路(IC)是电子信息产业的核心,应用于IC的IC制造装备是半导体产业发展的支柱,在整个半导体产业的发展中扮演着重要的角色。而硅片传输机器人是IC制造装备中不可缺少的关