DM7行列融合创新数据存储方式

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:harryxu200x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  传统的关系型数据库管理系统通常只支持行存储表,即数据按记录存储,每条记录的所有属性存储在一起。随着OLAP、数据仓库等查询密集型应用越来越广泛,行存储在应对这类型应用时的局限性逐渐突出,许多厂商适时推出了自己的列存储数据库系统。列存储按表的数据列来组织和存储数据,表的每列数据被存储在一起。DM7实现了列式存储,并支持对用户透明的行、列存储表的混合操作。
  DM7列存储表中的每个列对应两个段。其中一个段用于存储真正的列数据,这些数据被分为若干个区,每个区对应一个区描述项,区描述项存储在另一个段中,用于管理区中的数据。区描述项包含了这个区中所有数据的最大值及最小值,用于在查询时判断这个区是否需要进行扫描,不需要就可以跳过,以节省扫描时间。描述项中还包括区数据的存储位置,用于定位数据。
  DM7列存储表主要有三个优势:
  第一,吞吐量大。用户在访问传统的行存储数据库时,无论感兴趣的是表中的哪些列,都需要先完整地读出每条记录,这意味着用户在读取300个字节的数据,仅是为了检索其中20个字符。而对于DM7的列存储表,用户可以只读取需要检索的列的数据。由于大部分OLAP和数据仓库应用中的单个查询只涉及表的小部分列,因此该存储方式的吞吐量提升非常明显。
  第二,高效压缩。列存储在压缩方面比传统的行存储数据库更加有效。由于同一列的所有数据具有相同的数据类型,连续存储的数据具有很大的相似性,数据压缩效率比不同数据类型字段连续存储的行存储表更高。而DM7为不同的数据类型提供了自适应的压缩算法,进一步提高了列存储数据的压缩率。
  第三,范围索引。由于DM7列存储表的每个区描述项中都存储了区数据的最大值和最小值,且每个列的数据是在段中连续存储的,相当于对每个列都有分段的范围索引,这大大提高了数据检索的效率。
  数据库的执行计划通常以树型的数据结构表示,树中的节点被称为操作符,每个操作符完成一个特定功能。树的节点用于数据扫描,从物理存储位置抽取记录,并返回给上层节点。上层节点对记录进行加工,继续向上返回,或再次向下要求新的记录。
  一般来说,CSCN的工作是从一个指定的表中扫描指定的数据,CROSS表示将扫描到的数据进行连接操作,顶层的NSET表示将结果集输出。在执行过程中,CSCN每次从表中只扫描一条记录向上传,上层处理完后再扫描下一条记录,直到两个表都扫描完为止。这种以一次一行数据的传递方式为基础的系统构架限制了DM6中使用列存储表的可能性,即使支持列存储表,在传递数据时也要先逐条将其组织成行存储的格式,无法发挥列存储的优势,甚至会降低执行效率。
  DM7调整了系统构架,将数据的传输由一次一条数据修改为一次一批数据,并引入了一个新的数据结构BDTA。这是一个内存数据集合,它是在运行时不同执行节点之间传递数据的核心对象。BDTA按列的方式组织数据,每个列内各行数据以数组的方式存放,形成一个类似二维数组的数据集合。在执行时,操作符以BDTA为基础进行处理,每一个底层执行节点取到数据之后,都要先将一定数据量的数据(大小可以配置)填到BDTA中,然后再向上传,上层节点得到的是两个BDTA。
  BDTA在DM7中相当于一个适配器。一方面,每个操作符都可统一对它进行访问和处理;另一方面,行存储表和列存储表都能将表数据填到对应的BDTA中,区别只在于表扫描操作符的不同,而对执行计划的上层操作符来说,表的存储方式是透明的。
  当ORDERS的扫描操作符变为了VSCN2时,填写BDTA的动作将由这个操作符完成,它将相关数据传给上层操作符HASH2 INNER JOIN处理,对上层操作符来说,VSCN2和CSCN2传上来的BDTA是没有任何区别的。
  总之,DM7实现了真正的列式存储,并通过对执行计划操作符的改造实现了数据的批量传递和处理,通过BDTA结构实现对用户透明的行、列存储融合。当查询只涉及表的某几个字段时,使用列存储表可以大大减少填充BDTA的IO,在海量OLAP或数据仓库应用情况下其优势非常明显。
其他文献
戴尔收购全球知名的管理咨询公司毕博中国,并将其更名为戴尔咨询。戴尔希望将自身的商业模式通过优异的咨询服务和交付能力,转换为可以为客户所用的企业级解决方案。这是戴尔对信息时代咨询服务变化有了深入理解后做出的反应。  戴尔咨询能源行业董事总经理朱育强将信息时代咨询服务的特征总结为“EMBA”。  E(End to End Solution)指的是涵盖战略咨询和卓越运营的端到端解决方案。朱育强指出,近年
稍微讲究一点的人都比较忌讳撞衫,但是撞手机在现在看来已经是无法避免的事情。  ——本报记者 张楠    不可否认,iPhone在发布之初引来了众多的模仿者——魅族、三星、谷歌都曾对iPhone进行模仿。三星甚至因此惹来了苹果的专利诉讼官司,以至于无法在欧洲销售其新款银河系列手机。  iPhone就像蝗虫一样,迅速占领了所谓时尚人士的口袋。忽然之间,在大街小巷,iPhone似乎随处可见。就像冯小刚说
“要成为大国、强国,必须重视科研;在科研中,高校应当是最主要的力量。”在“互联网应用创新开放平台联盟”启动大会上,教育部科技发展中心主任李志民如是说。互联网应用创新开放平台联盟的创立,也是为了提升中国互联网科研能力,以实现让中国成为互联网大国、强国的目标。  互联网应用创新开放平台联盟的前身是清华大学的网络平台。“我们发起这个联盟的基本目标就是资源共享。”清华大学计算机系教授徐明伟介绍,清华大学内
LBS(基于位置的服务)是个“筐”,什么都能往里“装”。寂寞难耐,只需摇一摇手机你就能用微信、陌陌找到正在身边或者兴趣相投的朋友;规划出行路线可以查看地图和导航软件;请客吃饭想知道哪个饭店既环境优雅又菜品丰富,可以问大众点评要答案;哪家商场折扣最低,何时购物可抄底,领地优惠、品牌打折能帮你合理规划扫货日程;外出旅游时景点最佳旅行路线怎么走,哪家客栈既干净舒适又不会“宰客”,可以求教于蚂蜂窝、驴行天
PC产业中的笔记本电脑和台式机已深受垂直整合影响。如今,PC服务器垂直整合的时间窗口已经开启。  —— 本报记者 马文方  回顾PC的发展史可有多个角度:CPU、操作系统、外设、网络、应用等等,不一而足。不同的角度看重的事件不尽相同,从产业发展的角度看,应该有三个至关重要的时间点。  第一个时间点是1981年8月,IBM发布了个人电脑IBM PC,其意义在于PC从无到有。但从产业层面上看,IBM
对于企业固定资产管理人员来说,给每个固定资产设备贴上标签是一项费时费力的工作。过去,管理人员只能在电脑上先进行编辑,然后通过打印机进行输出。对于少量的固定资产来说,还比较省事,可以边打印边贴标签。但是对于大量固定资产来说,只能打印完一批再一起贴标签,但是这样就容易出现贴错标签的问题。而且一般的打印机由于都是打印常规格式的文档,所以对属于异形文档的标签支持不好,经常会出现错位等问题。  为了解决企业
Check Point公司日前对全球220多名IT安全管理专业人员进行了一项意见调查,其中超过90%的受访者表示,他们的公司只使用防火墙和反病毒解决方案作为保护网络安全的基本手段。  然而,现今企业除了需要对付传统的安全威胁外,它们也要面对来自Web的五花八门的应用程序及移动计算的新一代威胁,这大幅度增加了企业抵御安全威胁的复杂性。  越来越多的企业把安全视为其整体IT基础架构的重要环节,而且安全
十年前,刀片开始进入数据中心领域,成为企业级基础架构中非常有特色的一部分。今天,“云、管理、能效”等日益成为企业IT基础架构领域里的关键词。“简化、整合、软硬集成”等趋势已经成为业界不可逆转的潮流。IT不仅是企业成本投入和运营支撑的一部分,更是支持其实现差异化的重要组成。  70%预算用于运维  随着云计算、社交网络、移动互联、物联网等产业快速兴起,数据正呈现爆炸式的增长。对于企业来说,大量快速增
既然电商企业是一直亏本赚吆喝,那么不妨就亏得更严重些,把产品质量提上去。国内电商也许可以用亏掉的钱换来一个无价的品牌。  ——本报记者 王娟  电子商务界从来就不缺乏热点。  近几日,刘强东成功入选了2012《财富》“全球40岁以下的商界精英”, 成为仅有的两名中国上榜人之一。京东商城推出英文网站进军海外市场,瞄准竞争对手eBay、亚马逊;苏宁易购向综合类网站转型,凡客诚品和乐蜂网入驻苏宁易购开放
古有南海郡,今为南海区——南海的历史上不乏康有为、詹天佑、黄飞鸿这样的文化名人。也正是出于对知识的尊重,佛山市南海区积极推进教育信息化,早早确立了“以教育信息化推动教育现代化”的发展策略,在财政、配套政策上大力支持南海教育信息化。自然,南海区取得的成绩斐然——1999年,南海区成为“国家教育信息化试点区”;2010年以来,南海区先后成为广东省基础教育综合改革示范区(广东省唯一)、教育国际化实验区、