大规模可扩展数据分析技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:cocomalully
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机分析处理(OLAP)是在海量数据上进行的分析操作,通过复杂的分组聚集计算从海量的历史数据中提取出供企业决策分析的不同粒度分析结果。从查询处理特点来看,带有复杂分析计算的OLAP工作负载既体现出数据密集型的特点又体现出计算密集型的特点,因此OLAP的性能既取决于对物理存储设备上的数据访问性能又取决于OLAP查询处理引擎的处理效率。在OLAP的应用反馈中,最突出的问题是性能。随着企业级数据仓库数据量的迅速增长,OLAP的性能问题变得尤为突出。计算机硬件技术的发展提供了更大的内存容量、更高的处理器性能和更多的处理核心,但作为OLAP查询处理引擎的数据库的软件体系结构是面向磁盘数据库而优化设计的,不能充分发挥大内存和多核技术等先进硬件优势,内存数据库虽然通过内存优化技术提高了查询处理的性能,但其性能受制于系统物理内存的容量限制,难以满足企业级海量OLAP查询处理的需求。因此,针对分析型应用特点、结合先进硬件特性的OLAP查询处理技术将显著地提高OLAP的性能。  面对不断增长的数据量,OLAP系统需要具有良好的可扩展性来动态扩展系统规模、提高系统处理容量和能力。在传统的并行数据库系统中,系统的可扩展性受到系统结构、系统设计容量等因素的制约,只能提供有限规模下的可扩展性。MapReduce以其简化的数据处理过程和开放的系统结构在非结构化数据处理领域取得了巨大的成功,目前的发展趋势是将MapReduce技术扩展到结构化的数据处理领域。一些传统并行数据库厂商在产品中集成了类似MapReduce的功能以提高并行数据库的可扩展性,但这种功能的集成和处理过程的融合并未从根本上改变并行数据库在大规模海量数据分析领域的技术局限性。本文的研究内容面向海量数据环境下的大规模可扩展数据分析技术,包括内存数据库扩展技术研究、开放式并行数据库框架基础上的大规模可扩展并行数据分析技术研究和基于硬件特性的OLAP查询处理优化技术研究等。本文主要的研究工作如下:  1.提出了基于内存数据库的网络内存扩展技术,通过高速网络将多个内存数据库节点的内存融合为统一的虚拟“网络内存”,扩展系统有效的物理内存容量,通过多个低端服务器构建虚拟的大内存服务器支持大数据量上的高性能内存查询处理。在开源内存数据库系统MonetDB上进行底层模块扩展,增加了列数据优化分布模块、查询重写模块、远程列数据访问模块和列数据传输模块等,并设计了原型系统ScaMMDB。在ScaMMDB系统中,数据库中的列数据按照节点数量和查询处理中属性的相关性进行分布,将相关度高的属性分布在相同的节点上以减少节点间网络访问延迟,同时通过将属性列上的操作下推到数据存储节点来减少网络传输的数据量,实验表明,ScaMMDB能够扩展内存数据库对大数据量的支持,在未来的Tbps网卡的支持下,更低的网络传输延迟将进一步提高查询处理的性能。  2.提出了面向分布式聚集函数优化的并行内存数据库系统ScaMMDBⅡ(ParaCube)。通过水平分片将一个大的cube分解为多个较小的sibling cube,根据OLAP查询中聚集函数的类型将查询进行改写并下推到sibling cube上完成查询处理,并将查询结果子集进行聚集归并,产生最终的查询处理结果。系统根据聚集函数的特点采用不同的并行查询重写算法,并对不可分布式聚集计算的中值函数进行优化,通过迭代MEDIAN优化算法减少并行中值计算时节点间的数据传输量,降低查询处理的网络数据访问延迟。sibling cube上的聚集归并算法能够在聚集结果集层次上支持对可分布式聚集函数和可代数分布式聚集函数的并行处理,在此基础上提出了面向Operational Bussiness Intelligence(Operational BI)的三层模型,将数据量小的OLTP服务器、数据量中等的缓存数据服务器和海量历史数据上的数据仓库作为三个独立的sibling cube,通过查询重写和查询结果聚集归并将不同更新周期的数据集上的查询结果聚集归并为Operational聚集结果,从而将异构的三个数据处理系统通过OLAP查询优化技术组织为逻辑统一的OLAP系统,支持实时OLAP查询处理。  3.提出了面向硬件特性优化的星型模型OLAP查询优化算法。通过对星型模型模式、查询特点、数据存储和访问特性等方面的分析,结合存储模型数据访问特性、存储设备物理访问特性、cache替换策略和多核CPU的硬件特性对OLAP查询处理算法进行优化设计,提出了对事实表和维表采用不同的存储模型和使用不同的存储设备的混合存储模型,并根据存储模型特性提出内存维表优化存储结构和基于内存维表存储结构的维表记录直接内存访问算法DDTA-JOIN,通过对事实表中维属性值的内存地址映射实现对维表记录的直接内存地址访问,消除事实表与维表之间代价巨大的连接操作,同时,将星型模型中事实表与多个维表之间复杂的连接操作简化为以表扫描操作为基础的谓词运算操作,使DDTA-JOIN算法不仅适合于查询内的多核并行处理而且适合多用户并发情况下的查询间并行操作,文中还深入研究了并行查询处理算法中cache冲突与内存带宽争用对并行查询处理算法的影响,并在开源数据库系统PostgreSQL中实现DDTA-JOIN算法。  4.提出了面向大规模数据分析应用的开放并行数据库模型,将并行数据库的查询处理过程划分为五个独立的层次,各个层次之间通过标准的数据进行通讯,每个层次的功能和实现技术彼此独立,可以独立地进行扩展和升级,从而可以从处理的数据类型、系统规模、并发查询支持、查询执行控制和聚集结果归并等方面对系统的处理能力进行动态扩展以支持海量数据处理负载的动态需求。提出了k-way AMB+-Tree归并算法实现对大规模集群中查询结果子集的迭代归并,对比了Reduce的两阶段归并过程,并进行了性能分析。提出了基于chunk的并行数据库分区策略和混合型复制策略,提高并行数据库系统的容错能力和负载均衡能力。
其他文献
学校开展党员先进性教育活动,要自始至终把群众满意、师生满意作为根本标准。胡锦涛总书记最近在山东考察工作时强调,要确保先进性教育活动真正成为群众满意工程。这是总书
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
  身份认证是多数计算机信息系统必要的组成部分,传统的身份认证多采用静态的用户名/口令身份认证机制。这种身份认证机制的优点是使用简单方便,但由于缺少全面的安全性方面
中断驱动系统(Interrupt-driven System)被广泛应用于安全关键系统中,因而中断驱动系统的正确性保障尤为重要。此类系统通常使用操作系统任务调度加中断处理程序的软件体系结
“文革”爆发后,国民经济遭到严重破坏,关系到国计民生的粮棉生产形势十分严峻。周恩来心急如焚,努力寻找粮棉双高产的先进典型,以推动全国农业的发展。1969年夏,山东党组织
少儿频道即将五周岁。其成长迅猛,显示了初生牛犊不畏虎的锐气。在全国上星频道中,少儿频道平均收视份额已从开办之初的第21位跃居目前的第7位,频道满意度列全国上星频道第9
网络信息技术的飞速发展使得信息检索成为用户从海量网络资源中获取有用信息的重要手段,由于目前大多数检索系统主要基于词语匹配,而其查询结果仅仅提供一个冗长的相关列表,这导
随着网络通信技术的高速发展,和数字视频在跨领域中的广泛应用,适应于异构网络的多样化视频服务为人们的生活和工作提供了更便捷、高效的视频体验。但是不同网络接入模式的服务
学位
近年来,随着INTERNET高速发展,WEB软件应用迅速推广,企业应用也基本上基于WEB进行开发,迫切需要对WEB软件进行性能测试。而WEB程序性能测试相对于通常软件测试有其自身的特殊性和
真实的节目,绝对的实力星尚传媒自2002年来,与北京广播电台及全国上百家广播电台合作,推出了《奥运全知道》等一系列令人耳目一新的广播节目。 Real Program, Absolute Stre