列存储技术在大数据中分析中的优势分析

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:lengzhichao12321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 针对当前传统数据库技术对大数据进行分析时系统性能严重下降、查询效率受限的问题,本文研究分布式文件系统中数据读取关键技术。在分布式系统中,数据的存储结构直接影响着大数据的存储效率和处理性能,本文基于行列存储结构的特点,综合比较不同存储的模式在大数据应用中的优劣,展望未来研究与应用方向。
  [关键词] 大数据;列存储;MapReduce;
  1 引言
  在信息化技术高度发展的今天,大数据应用变得日渐普及而且非常重要。鉴于传统关系型数据库在大数据应用领域应用时遇到的困难,基于分布式的海量数据管理是当前的研究热点,这就包括如何有效地存储和处理这些增长迅速的海量数据。
  一半而言大数据的数据规模可以达到PB级,这就对存储空间和计算能力提出了很高的要求,大数据存储的数据类型多,复杂度高。大数据环境下,对数据存储的组织和管理提出了更高的要求。本文在分析列存储技术和分布式存储系统HDFS 局限性基础上,重点研究了数据存放结构,综述了各项关键技术当前的研究现状,分析了现有技术存在的问题探讨如何使用列存储技术提升大数据存储和处理的性能以提升大数据查询的效率,并展望了未来研究的发展方向。
  2 列存储技术
  2.1 列存储方式
  自SIGMOD85会议论文A Decomposition Storage Model [ ] 提出了DSM概念以来, 经历30年的发展,在Stonebraker 、Abadi、 Boncz 等为首的一批数据库专家的大力提倡下, 列存储相关技术及应用快速得到了快速发展, 这种技术的特点是对复杂数据的查询效率高, 读取磁盘少, 存储空间占用少。这些特点使其大数据和OLAP应用存储的理想结构。
  列存储是相对于行存储而言的,列存储最核心的技术就是基于垂直分区的存储设计和访问模式。列存储系统将数据库完全划分为多个独立的列的集合进行存储,图1展示了行存储和列存储的在物理存储设计上的本质区别,展示了3种数据库的存储方式,其中图 1(a) 和图 1(b))是两种列存储的方式,每一列单独保存Sales表中的每个属性数据对象,图1(c)是行存储形式。
  列存储数据库只需查询读取涉及关系中某些数据列,避免无关列的提取,不像行存储那样需要从磁盘读取整行信息并去除不需要的属性信息,从而减少I/O和内存带宽的占用,提高查询效率。而且,同一列数据属性相同,可以使用针对性的压缩算法,因此压缩效率高。C-Store[ ]和Monet DB[ ]是其中有影响力的代表性成果,它们在存储结构、查询优化、压缩等方面进行了很多技术创新,使得列存储相比较行存储而言更适合大规模的访问和查询。
  2.2 列存储关键技术
  (1)压缩技术
  Abadi D J [ ]在SIGMOD06会议上提出列存储的主要压缩方法有:行程编码算法、词典编码算法、位向量编码算法。
  ①行程编码算法(Run-length Encoding-RLE)
  行程编码算法用一个三元组记录数据值。这个三元组记录包括数据出现的起始位置和持续长度( 即行程) ,目的在于压缩原始数据的长度,适用于相同数据连续存储的情况,三元组描述为( X,Y,Z) ,X 表示数据的值,Y 表示数据起始位置,Z 表示长度。举例而言假如在一个列中初始的50个元素中包含值‘W’,则这50个元素可以表示为三元组(‘W’, 1, 50)。
  该技术适用于重复数据较多的的数据列,具有较好的压缩效果,缺点是对列值的重复性及排序要求较高。
  ②词典编码算法(Dictionary Compression)
  词典编码算法将原始值转换成替代值存储在系统中,所以会产生 “原始值-替代值”对照词典,替代值的长度大大小于原始值的长度,从而达到压缩存储空间的目的。如图2 所示, 可以用简单的两位数字代替原始字符串, 从而缩短所需存储空间。
  该算法对于数据类型要求较低,不要求数据排序,缺点是要创建词典表,维护成本高,如果数据重复性不高则词典表会过于庞大。
  ③位向量编码算法(Bit-Vector Encoding)
  位向量编码是为每一个不同的取值生成一个位向量, 根据位向量(串)中不同的位置取值0或1 来对应并确定不同的原始值。位向量编码算法是轻量级的编码算法,可以直接在压缩数据上进行操作,可以降低CPU 成本。例如对以下的列存储数据:
  该算法对数据类型要求不高,在有些情况下查询效率甚至高于词典编码,缺点是位置数据会因为取值空间的太大或者重复性低导致空间占用较大。
  对于列存储主要应用的海量数据查询分析领域,有效压缩是一个十分重要的优势。
  (2)延时物化
  延时物化的主要优点在于允许对压缩态的列存储数据进行高性能操作,具备高效的压缩传输数据开销,通过延迟元组物化,尽可能少的进行元组物化,尽可能地避免了不必要的实际数据传输开销。
  元组物化是将常用元组从实际物理存储的状态生成为实体化的元组, 即物化存储在内存中。在以后的查询中, 方便直接读取已物化元组, 从而提高查询效率。物化有提前物化和延时物化两种,提前物化在提交查询之前物化元组; 延时物化是推迟物化元组时间, 在查询最后时刻物化元组。对于列存储数据库而言, 提前物化需要解压压缩数据,时间和空间的开销都很大,而提前物化会涉及到很多不必要的列。
  Abadi D J在文献[ ] 中, 详细介绍了两种物化方式的实验过程,证明延时物化许多性能上的潜力只有在列存储数据库中才能发挥。文献[ ]比较了提前物化和延时物化的优劣,在延时物化引入横向信息传递技术应用,有效解决了溢出连接产生的性能下降问题。
  3 列存储技术在大数据分析中的   3.1 大数据分析的存储
  国际数据中心(IDC)在2011 年的报告[ ]中定义了大数据: “大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。 这个定义刻画了大数据的4 个显著特点, 即容量(volume)、多样性variety)、速度(velocity) 和价值(value)。大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化和软件系统开源化的特点。
  现有大数据处理技术主要有对称多处理机架构(SMP)和大规模并行处理架构(MPP)两大类。在数据量极速增长的大数据背景下,计算分布和存储分布的MPP架构成为主流。MapReduce[ ]分布式并行计算是MPP架构的代表。Hadoop[ ]是MapReduce分布式计算框架的实现,为大数据处理大型分布式集群,通过分布式存储系统HDFS( Hadoop Distributed File System)[ ]来管理海量数据。如何在HDFS 中设计一个高效的数据存储结构来组织大数据遇到了一系列的困难,而影响大数据查询分析性能的关键因素是能够满足充分利用MapReduce 计算特性来处理大数据。
  3.2 大数据分析中的数据存储
  基于Hadoop系统的数据仓库中,数据存储格式是影响数据仓库性能的一个重要因素,它直接影像如何高效的存储、管理和使用这写数据。在Hadoop运行环境中,数据的存储格式要满足以下几个特点: 数据加载数据要快、数据查询处理要快、 高效的数据存储空间利用率、适应高强度的动态负载模式。
  对比图3中行列存储方式的不同,基于行存储的数据结构:优点是具备快速数据加载和动态负载的高适应能力,因为行存储保证了相同记录的所有域都在同一个集群节点;但是它不太满足快速的查询响应时间的要求,特别是在当查询仅仅针对所有列中的少数几列时,它就不能直接定位到所需列而跳过不需要的列,由于混合着不同数据值的列,行存储不易获得一个极高的压缩比,行存储不易获得一个较高的压缩比。
  在面向列的文件存储结构中,列A和列B存储在同一列组,而列C和列D分别存储在单独的列组。这种结构使得在查询时能够直接读取需要的列而避免不必要列的读取,并且对于相似数据也可以有一个更好的压缩比。但是他的缺点也很明显,那就是由于元组重构的较高开销,它并不能提供基于Hadoop系统的快速查询处理,也不能保证不能保证同一记录的所有列都存储在同一集群节点之上,也适应高度动态的数据负载模式。
  基于行列混合存储的RCFile[ ],如图4所示,它即满足快速数据加载和动态负载高适应的需求外,也解决了数据查询处理的瓶颈。该存储结构遵循的是“先水平划分,再垂直划分”的设计理念。先将数据按行水平划分为行组,这样一行的数据就可以保证存储在同一个集群节点;然后在对行进行垂直划分。RCFile具备相当于行存储的数据加载速度和负载适应能力,在读数据时可以在扫描表格时避免不必要的列读取,它比其他结构拥有更好的性能,使用列维度的压缩能够有效提升存储空间利用率。
  通过设计一个分布式文件存储格式(MapReduce column-store file,MCF),基于列存储的大数据分析系统物化策略,在MapReduce分布式并行处理环境中结合列存储技术对物化策略进行优化执行。
  在数据加载中,利用列存储的特点提出数据存储的协同定位策略来优化数据的存储,在数据加载过程中进行数据的预处理,通过构建MapReduce早期物化策略、MapReduce延迟物化策略和MapReduce混合的物化策略,结合利用自适应物化集合调整策略避免物化集合的恶性膨胀。通过实验证明,物化策略和自适应物化集合调整策略有效地减少MapReduce过程的中间数据、网络带宽占用和不必要的I/O开销,较大提高大数据分析效率。
  4 结束语
  通过本文研究发现,行存储结构在数据加载的效率上优于列存储,但在数据压缩的效率很低,不能有效地提高磁盘利用率。列存储结构在数据压缩上有很好的压缩效果,因为跨数据节点访问使得数据加载及重构的时间较长,对系统I/O要求较高。行列相结合的数据存储结构可以结合行存储的高效数据加载和列存储的高效数据压缩效果,在大数据分布式系统中,行列数据存储结构极大地提高了大数据存储及处理性能,SAP HANA和HP VERTICAL等都是很好的商用系统的例子。
  基于列存储的物化策略可以有效减少大数据调用过程中的中间数据为和元组重构的开销,减少网络带宽和I/0占用,极大提升大数据的查询效率。
  研究同时发现在应用中应该着重于适用与不同数据类型的大数据压缩方法以及直接对压缩数据的直接访问及列存储的MapReduce 连接索引技术研究,进一步优化大数据查询性能。
其他文献
[摘 要]乡镇政府是我国行政管理体系的重要组成部分,乡镇政府工作人员的业务能力和素质是建设服务型政府,提高社会管理和公共服务水平的关键。本文以成都市郊县乡镇TY镇为例,剖析其人力资源管理中存在的问题。TY镇作为典型的成都市郊县乡镇,其乡镇人力资源管理的现状基本上能够代表整个成都市郊县地区乡镇人力资源管理存在的问题。乡镇政府只有不断优化人力资源管理水平,引入先进人力资源管理理念,重视人力资源的开发,
[摘 要] 近些年,我国的中药产业发展速度加快,这一速度受着我国乃至国外人们健康的影响,但是,在药品生产过程中还存在着不足之处。本文简要分析中药生产中存在的一些不足,根据这些不足提出几项改进措施,使中药生产企业朝着健康的方向发展。  [关键词] 中药生产;生产管理;意义  [中图分类号] F273 [文献标识码] A [文章编号] 1673 - 0194(2015)09- 0125- 02  中药
[摘 要]当今,市场竞争日渐增强,商家们纷纷绞尽脑汁来吸引顾客,利用产品和服务创新是吸引顾客的一种销售手段之一。忠诚是各民族广为褒扬的传统美德,也成为企业和顾客关系维系的核心。本文就企业和顾客关系管理的忠诚度进行分析。  [关键词]企业;顾客;管理核心;忠诚度  doi:10.3969/j.issn.1673 - 0194.2016.12.056  [中图分类号]F274 [文献标识码]A [文章
[摘 要] 随着人工智能和信息技术的发展,大数据、云计算和商务智能等应用不断深入,为会计信息系统的发展提供了新的机遇。本文根据会计工作的特点,按照信息处理的规则,探讨面向小企业开发智能核算会计信息系统,以实现小企业会计工作数据处理的全程自动化。实现原始单据自动识别输入,最终信息自动生产。通过会计智能化实现减少会计人员重复工作、转变会计职能、推动管理会计发展。  [关键词] 智能会计信息系统;会计智
[摘 要]近年来,我国电子商务产业已初具规模,从结构上改变了中国市场消费者的消费行为和消费习惯,完成了初期的市场培育,进入消费市场细分阶段。大学校园这个密集消费群体的消费需求日益凸显,大学生的网购消费能力亦逐年攀升,不容小觑,诸多定位服务大学生消费市场的电子商务平台应运而生。上海电机学院服务上海临港大学城的“按月订购”商业平台便是其中的一个缩影。  [关键词]电子商务;按月订购;自贸区;服务  d
[摘 要]随着《财政部关于推进预算绩效管理的指导意见》的出台,绩效评价逐渐被高校预算管理所引入。本文在分析当前我国高校预算管理存在问题的基础上,介绍绩效预算管理的重要意义,并由此提出高校推行绩效预算管理的思路,以促进高校预算管理水平的提升。  [关键词]高校;预算管理;绩效预算  doi:10.3969/j.issn.1673-0194.2016.12.003  [中图分类号]G647.5 [文献
[摘 要]本文分析了MOOC的优势以及地方高校公共课教学现状,以计算机应用基础的教学为例,对MOOC在地方本科院校公共课教学环节中的应用进行研究,提出课堂、MOOC混合教学模式框架,希望通过对MOOC教学模式的不断建设完善,提高学生自主学习能力,进而提高学生综合素质。  [关键词]MOOC;地方高校;计算机应用基础  doi:10.3969/j.issn.1673-0194.2015.06.157
[摘 要]并购溢价现象在现实生活中普遍存在,已经引起学术界和实务界的广泛关注。是随着IFRS在全球范围内的逐步推广,催生了IFRS对企业并购溢价影响的讨论。本文从会计信息透明度、国家监管和盈余管理角度梳理有关并购溢价影响因素文献,并着重回顾研究2002年之后采用IFRS与企业并购溢价关系的文献。在此基础上提出未来研究的展望,以期为我国并购溢价研究提供借鉴。  [关键词]IFRS;并购溢价;国家监管
[摘 要] 本文研究在Web 2.0环境下如何培养财经类学生的创新意识和创业精神,最终提高财经类专业大学生创业能力。对大学生Web 2.0网络平台及环境应用进行调查研究,提出财经类人才的创新创业教育对策,鼓励学生采用Web 2.0技术与他人进行交流和分享,定期组织通识知识沙龙,建立财经学院就业创业博客,提供给学生专门分享和积累就业创业知识、交流创新想法的平台。  [关键词] Web 2.0;财经类
[摘 要]2006年国家开始实施农村义务教育经费保障机制改革,迄今为止取得了显著的成果,但是随着改革的逐步推进,各种问题也逐渐显现出来。文章基于2006-2015年国内相关文献,对农村义务教育经费保障机制问题这一主题进行综述。文章首先对该研究领域的文献进行样本分析,其次从农村义务教育经费保障机制实施的效果、出现的问题和解决的对策三个方面进行综述,最后述评该领域研究成果和展望。  [关键词]农村;义