论文部分内容阅读
摘 要:随着科学技术的进步,计算机也得到了高速发展。但是,现阶段由于大数据的规模影响,导致计算机对数据的存储、分析以及管理还存在很多问题。分布式文件系统可以有效的解决计算机的这一问题,尤其是在大数据分析模式下,分布式MOLAP技术的应用,有效的降低了计算机在进行数据存储和分析阶段受到大数据规模的影响。本文将重点基于大数据分析的前提下,对分布式MOLAP技术进行分析,为相关工作提供参考。
关键词:大数据分析;分布式MOLAP技术;分析
中图分类号:TP311.1 文獻标识码:A 文章编号:1004-7344(2018)17-0293-02
1 引 言
计算机技术、互联网技术以及大数据分析都是近年来科学技术发展的产物。但是,随着时代的进步与发展,数据信息呈现爆炸式的增长,给数据的处理和分析带来了极大的挑战。如果处理不当,会对相关企业造成巨大的经济损失。分布式MOLAP技术能够对多维度的数据结构实现信息分类分布,可以有效的处理大数据的规模化的影响,在大数据分析领域应用十分广泛。因此,分析研究分布式MOLAP技术具有重要的现实意义。
2 大数据分析的分布式MOLAP技术的重要性
分布式MOLAP技术的实现,需要通过程序编辑模型MapReduceh,因此MOLAP技术又被称作DOLAP。虽然大数据分析的分布式MOLAP技术还存在很多的问题,在实际的使用阶段,还存在很多制约因素导致其结果产生偏差,但该项技术在大数据分析当中具有以下几点重要作用:
(1)确保了大数据分析的准确性:由于大数据的内容十分广泛,包含了很多领域的数据信息,传统的数据处理工作繁重复杂,很容易出现差错,导致大数据分析的结果存在一定的误差。采用分布式MOLAP技术,通过将大数据进行分类,可以有效的提升数据处理的工作效率,减少相关数据处理的工作量,确保了大数据分析的准确性。
(2)降低了大数据分析的难度:通过分布式MOLAP技术,可以实现对大数据的分类简化,将一些杂乱无用的数据信息进行剔除,降低了大数据分析的难度。
3 大数据分析的分布式MOLAP技术模型建立
通过建立多维度的数据模型,可以实现大数据分析的分布式MOLAP技术。该项技术的主要工作内容就是维和事实。利用这两方面的相互结合的特点,成为了大数据分析的理论基础和便利条件。因此,分布式MOLAP的核心就是确定维和事实之间的映射关系。
传统的ROLAP技术,通过关系数据库以及星型模型,实现了对维和事实的区分,达到了将二者分开储存的目的,最后借助外键,对维和事实的映射关系进行确定。随着科学技术的发展,数据的存储量越来越庞大,大数据更加的多样化和复杂化,采用传统的ROLAP技术,工作效率很低,无法满足社会相关部门的对大数据分析的需求。分布式MOLAP技术的出现,解决了这一问题,因此在大数据分析中应用日益广泛。在进行分布式MOLAP数据模型建立时,应注意以下要点:
3.1 维信息
通过建立多维度的数据模型,对数据库中的数据进行简单的分类,维将所有的数据项分类至一个无重叠的数据结构中,并且提供数据项的筛选、组织和标识方法。因此,在建立分布式MOLAP数据模型时,对维信息的内容和数据进行简化,应遵循以下约束条件:
(1)维有且只有1个维层次;
(2)维是由多个维级别组成的集合。可以记作{a1,a2,…am},设ai(i∈[1,m])为任意一个维级别,则,i仅包含1个维属性,且包含ni个维值;
(3)维可以被当作是各维级别的属性取值,所组成的属性结构。处于同一级别的节点存在相同数量的子节点。
3.2 度 量
度量是一个独立变量,它是分布式MOLAP技术分析的参考维值分析对象。度量所参考的是指维当中,最低级别的维值。
3.3 单元格
单元格,是由不同的度量组成的,且这些度量都是以相同的维值作为主要的参考对象。
3.4 实例分析
以广东省某运营商网络的通话记录为例,可以根据通话记录的特点,建立以下维度的设置:短信类型、品牌维度、城市维度、漫游标志维度、通话类型维度、时间维度等。根据通话的长度以及收费情况,作为分布式MOLAP的度量。
(1)短信维度的分级设置:普通短信、短信批发、网站短信、彩信等四个维度;
(2)品牌维度的分级设置:根据运营商的套餐品牌进行划分,包含大概23个品牌维度;
(3)城市维度的分级设置:按照广东省的不同城市进行划分,包含广州、深圳、珠海等22个城市维度;
(4)漫游标志维度的分级设置:根据客户通话时的漫游标志,包含不漫游、省内漫游等7个漫游标志维度;
(5)通话类型维度的分级设置:根据客户通话的类型进行分级,包含省外长途、省内长途、国际长途等9个通话类型维度;
(6)时间维度的分级设置:按照小时进行时间维度的分级设置。
4 大数据分析的分布式MOLAP技术维编码的算法及数据的存储
4.1 维编码的算法
一般情况下,维编码的算法具有两种表现形式:十进制和二进制。
(1)二进制:又称为位图编码,它利用不同编码的拼接,实现了对维级别信息的概括,对维的遍阅则通过位置的移动来实现,但此种算法相比较十进制,还存在计算不详细的缺陷;
(2)十进制:采用这种算法,通过对每一个维级别的维值进行编码,数据编码较为详细,但是无法实现编码和维值之间的映射。一般情况下,为了避免细数,降低错误产生的几率,分布式MOLAP技术都采用这种算法。
例如:如果a是维信息d的一个维级别,采用十进制进行编码方法如下:
Input:Dimension d:A targel dimension;
Function:Dimension Coding;
1.FOR i=1 TO |a(d)|;
2.FOR j=0 TO |md(ai)|-1;
3.Dimension value of V■■∈md(ai)
4.V■■.code=j;
5.END FOR
6.END FOR
4.2 数据的存储
分布式MOLAP技术,在进行数据存储工作时,需要大量的存储空间。一旦数据立方体(如图1)存在多个维值,很容易造成存储空间不足的情况,造成后续的数据无法进行正常的存储。在此背景下,DOLAP技术的应用,借助计算得到的“多维组数”,不需要进行数据的存储工作,同时也降低了对数据存储空间的需求。此外,DOLAP技术还能够简化维,确保同一级别的维在编码方便处于一致装填。因此,在进行存储时,只需要对相应级别的维信息进行存储,也对存储空间的要求较低。
5 结束语
综上所述,随着科学技术的发展,人们对数据的需求越来越高,大数据已经成为人们日常生活必不可分的一部分。现阶段,庞大的数据量导致传统的技术手段已经无法满足时代的发展。分布式MOLAP技术的应用,满足了人们对大数据分析的需求。因此,相关工作者应当深入研究分布式MOLAP技术,掌握并合理运用这项技术,推动大数据分析的进步与发展。
参考文献
[1]宋 杰,郭朝鹏,王 智,等.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731~752.
[2]杨明红,杨振华.分布式MOLAP技术在大数据分析的分析[J].电脑迷,2017(2).
[3]刘 磊.大数据分析的分布式MOLAP技术要点[J].电脑知识与技术,2018(1).
[4]张少荣.基于大数据分析的分布式MOLAP技术[J].数字通信世界,2016(11).
收稿日期:2018-5-11
关键词:大数据分析;分布式MOLAP技术;分析
中图分类号:TP311.1 文獻标识码:A 文章编号:1004-7344(2018)17-0293-02
1 引 言
计算机技术、互联网技术以及大数据分析都是近年来科学技术发展的产物。但是,随着时代的进步与发展,数据信息呈现爆炸式的增长,给数据的处理和分析带来了极大的挑战。如果处理不当,会对相关企业造成巨大的经济损失。分布式MOLAP技术能够对多维度的数据结构实现信息分类分布,可以有效的处理大数据的规模化的影响,在大数据分析领域应用十分广泛。因此,分析研究分布式MOLAP技术具有重要的现实意义。
2 大数据分析的分布式MOLAP技术的重要性
分布式MOLAP技术的实现,需要通过程序编辑模型MapReduceh,因此MOLAP技术又被称作DOLAP。虽然大数据分析的分布式MOLAP技术还存在很多的问题,在实际的使用阶段,还存在很多制约因素导致其结果产生偏差,但该项技术在大数据分析当中具有以下几点重要作用:
(1)确保了大数据分析的准确性:由于大数据的内容十分广泛,包含了很多领域的数据信息,传统的数据处理工作繁重复杂,很容易出现差错,导致大数据分析的结果存在一定的误差。采用分布式MOLAP技术,通过将大数据进行分类,可以有效的提升数据处理的工作效率,减少相关数据处理的工作量,确保了大数据分析的准确性。
(2)降低了大数据分析的难度:通过分布式MOLAP技术,可以实现对大数据的分类简化,将一些杂乱无用的数据信息进行剔除,降低了大数据分析的难度。
3 大数据分析的分布式MOLAP技术模型建立
通过建立多维度的数据模型,可以实现大数据分析的分布式MOLAP技术。该项技术的主要工作内容就是维和事实。利用这两方面的相互结合的特点,成为了大数据分析的理论基础和便利条件。因此,分布式MOLAP的核心就是确定维和事实之间的映射关系。
传统的ROLAP技术,通过关系数据库以及星型模型,实现了对维和事实的区分,达到了将二者分开储存的目的,最后借助外键,对维和事实的映射关系进行确定。随着科学技术的发展,数据的存储量越来越庞大,大数据更加的多样化和复杂化,采用传统的ROLAP技术,工作效率很低,无法满足社会相关部门的对大数据分析的需求。分布式MOLAP技术的出现,解决了这一问题,因此在大数据分析中应用日益广泛。在进行分布式MOLAP数据模型建立时,应注意以下要点:
3.1 维信息
通过建立多维度的数据模型,对数据库中的数据进行简单的分类,维将所有的数据项分类至一个无重叠的数据结构中,并且提供数据项的筛选、组织和标识方法。因此,在建立分布式MOLAP数据模型时,对维信息的内容和数据进行简化,应遵循以下约束条件:
(1)维有且只有1个维层次;
(2)维是由多个维级别组成的集合。可以记作{a1,a2,…am},设ai(i∈[1,m])为任意一个维级别,则,i仅包含1个维属性,且包含ni个维值;
(3)维可以被当作是各维级别的属性取值,所组成的属性结构。处于同一级别的节点存在相同数量的子节点。
3.2 度 量
度量是一个独立变量,它是分布式MOLAP技术分析的参考维值分析对象。度量所参考的是指维当中,最低级别的维值。
3.3 单元格
单元格,是由不同的度量组成的,且这些度量都是以相同的维值作为主要的参考对象。
3.4 实例分析
以广东省某运营商网络的通话记录为例,可以根据通话记录的特点,建立以下维度的设置:短信类型、品牌维度、城市维度、漫游标志维度、通话类型维度、时间维度等。根据通话的长度以及收费情况,作为分布式MOLAP的度量。
(1)短信维度的分级设置:普通短信、短信批发、网站短信、彩信等四个维度;
(2)品牌维度的分级设置:根据运营商的套餐品牌进行划分,包含大概23个品牌维度;
(3)城市维度的分级设置:按照广东省的不同城市进行划分,包含广州、深圳、珠海等22个城市维度;
(4)漫游标志维度的分级设置:根据客户通话时的漫游标志,包含不漫游、省内漫游等7个漫游标志维度;
(5)通话类型维度的分级设置:根据客户通话的类型进行分级,包含省外长途、省内长途、国际长途等9个通话类型维度;
(6)时间维度的分级设置:按照小时进行时间维度的分级设置。
4 大数据分析的分布式MOLAP技术维编码的算法及数据的存储
4.1 维编码的算法
一般情况下,维编码的算法具有两种表现形式:十进制和二进制。
(1)二进制:又称为位图编码,它利用不同编码的拼接,实现了对维级别信息的概括,对维的遍阅则通过位置的移动来实现,但此种算法相比较十进制,还存在计算不详细的缺陷;
(2)十进制:采用这种算法,通过对每一个维级别的维值进行编码,数据编码较为详细,但是无法实现编码和维值之间的映射。一般情况下,为了避免细数,降低错误产生的几率,分布式MOLAP技术都采用这种算法。
例如:如果a是维信息d的一个维级别,采用十进制进行编码方法如下:
Input:Dimension d:A targel dimension;
Function:Dimension Coding;
1.FOR i=1 TO |a(d)|;
2.FOR j=0 TO |md(ai)|-1;
3.Dimension value of V■■∈md(ai)
4.V■■.code=j;
5.END FOR
6.END FOR
4.2 数据的存储
分布式MOLAP技术,在进行数据存储工作时,需要大量的存储空间。一旦数据立方体(如图1)存在多个维值,很容易造成存储空间不足的情况,造成后续的数据无法进行正常的存储。在此背景下,DOLAP技术的应用,借助计算得到的“多维组数”,不需要进行数据的存储工作,同时也降低了对数据存储空间的需求。此外,DOLAP技术还能够简化维,确保同一级别的维在编码方便处于一致装填。因此,在进行存储时,只需要对相应级别的维信息进行存储,也对存储空间的要求较低。
5 结束语
综上所述,随着科学技术的发展,人们对数据的需求越来越高,大数据已经成为人们日常生活必不可分的一部分。现阶段,庞大的数据量导致传统的技术手段已经无法满足时代的发展。分布式MOLAP技术的应用,满足了人们对大数据分析的需求。因此,相关工作者应当深入研究分布式MOLAP技术,掌握并合理运用这项技术,推动大数据分析的进步与发展。
参考文献
[1]宋 杰,郭朝鹏,王 智,等.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731~752.
[2]杨明红,杨振华.分布式MOLAP技术在大数据分析的分析[J].电脑迷,2017(2).
[3]刘 磊.大数据分析的分布式MOLAP技术要点[J].电脑知识与技术,2018(1).
[4]张少荣.基于大数据分析的分布式MOLAP技术[J].数字通信世界,2016(11).
收稿日期:2018-5-11