论文部分内容阅读
近年来,随着信息化向人类社会各个层面的渗透和发展,在企业、科学、互联网等领域均产生并汇集了大量数据,大数据时代已然来临。目前,越来越多的应用领域涉及到大数据的存储和查询分析处理,其所蕴藏的科学价值和商业价值逐渐体现。然而大数据在规模与复杂度上的快速增长对现有数据管理技术带来巨大挑战。伴随着海量异构数据的急剧增长,集中式数据库在存储和计算等方面的局限性日益显著,数据管理向分布式发展已成为普遍趋势。分布式数据库中间件为用户提供了透明的构建数据库集群的方案,对目前广泛应用的MySQL、Post GreSQL等开源关系型数据库提供简捷方便的分布式支持。事实上,分布式数据库中间件在原理上能够实现不同类型的底层数据库和应用集成。为此,若在底层将关系型数据库与NoSQL数据库进行统一集成,将有望对不同来源和不同结构的数据进行自适应存储和查询优化,从而实现对多源异构数据的统一管理。首先,本文对大数据及其多源异构的特点进行了介绍,指出在大数据多源异构的背景下,单一使用某一类数据库存在的缺陷,表明同时应用多种类型数据库的必要性。另一方面,重点介绍了分布式中间件的概念、原理、特点及代表性产品,探讨了利用分布式数据库中间件进行混合类型数据统一管理的可能性,分析了现有分布式数据库中间件对不同类型数据支持上的缺陷和不足。在此基础上,提出基于分布式数据库中间件的混合数据管理框架,对框架的体系结构进行了介绍。进一步,本文设计了基于分布式数据库中间件的混合数据查询机制。针对目前广泛存在的半结构化-关系型混合数据、非结构化-关系型混合数据,分别基于Mongo DB-MySQL,Hadoop-Hana提出两类查询机制。本文设计类SQL查询语句以提供统一的上层查询接口,在开源分布式数据库中间件MyCat上实现了新的查询解析,查询拦截及查询推送功能,并进一步设计了混合类型数据的查询与优化算法,对上述两类查询机制进行了实现。最后,论文使用从某医疗咨询网站下载的实际数据集以及大规模通用TPC-H数据集,对本文所提框架和算法进行了功能和性能上的验证。实验结果说明了本文方法的有效性,验证了本文方法是对多源异构数据管理解决方案的有效尝试。