论文部分内容阅读
大数据、物联网等技术的普及和深入发展促使数据不仅在体量上急剧膨胀,数据的种类和格式也在快速增加。各种数据由于在模式以及操作方式上的不同而形成众多独立的数据种群,不同类型的数据无法统一查询和处理,阻碍了数据之间的互通。这不仅使得各种数据的统一高效使用成为一件很困难的事,也为如何从这些海量数据中充分挖掘出有价值的信息带来了极大的挑战。而使用传统的方式存储和操作这些异构数据已经越来越难以满足当前应用需求,例如NoSQL等大数据模型往往没有固定的模式,数据结构经常处于动态变化之中,是与传统数据进行融合的最主要障碍。目前关于大数据与传统数据模型进行模式集成的研究仍然不够充分,且大数据的语义描述等问题也尚缺少全面的研究。因此,需要一种统一、高效且足够灵活的方式来描述各类异构数据,且能够表达数据内部以及异构数据之间的语义,实现数据内在价值的挖掘和潜在知识的发现。
本文在充分比较、分析各种异构数据集成公共模型的基础上,吸纳了相关主要模型的特点和优势,提出了一种面向概念与关系的公共数据模型GDM(即格数据模型,GridDataModel)。GDM模型在关系、段、节等定义的基础上实现了一种新的数据模式定义和结构组织的方式,能够统一描述各种数据结构和语义关系。文中同时给出了GDM模型的形式化标准定义。
为了深入说明GDM模型的语义描述和逻辑推理能力,本文在GDM基本概念的基础上描述了GDM模型的语义推理和领域知识演化原理,并以SHOIQ(D)描述逻辑为例,描述了如何通过GDM语法子集建立与描述逻辑的映射关系,以及如何利用GDM模型构建基于描述逻辑的本体知识库,并对GDM模型的相关推理问题进行了理论证明。
本文接着研究了数据集成过程中数据结构异构的问题。为了实现各种传统数据模型与大数据模型的集成,本文利用GDM模型基于关系的数据结构描述机制,从形式化理论角度研究了各种数据模型向GDM进行模式转换的原理,包括结构化的关系模型、半结构化的XML和多种非结构化的NoSQL数据数据模型。同时还研究了GDM模型能够同时描述有模式数据和无模式数据的混合模式特性以及进行动态修改数据的能力。
本文然后基于虚模式定义了GDM模型代数以及查询语言GDMSQL的语法,并阐述了GDM数据查询过程和查询优化基本原则。以上GDM模型数据管理方案提供了格数据查询和操作的基本方法,是进行基于GDM模型的异构数据集成的必要前提。
基于以上模型定义、相关理论和查询操作语言,本文研究了分布式环境下异构数据集成过程中的查询、处理和优化等若干方面,解决了查询变量关联、查询分解与查询计划生成、查询处理过程的并行调度等相关问题。同时,为了降低异构数据查询处理的时间成本,本文还提出了几种基于最小调度连通图的查询优化方案,通过模拟实验比较了各种优化策略的性能,验证了查询优化方法的有效性。
为了进一步说明GDM模型的优秀特性和数据集成时的效率优势,本文还从各方面比较了GDM及几种基本数据模型的相关特性,并重点与OWL模型进行了深入对比。同时,还基于本文提出的效率评估模型,从时间和空间两个角度比较分析了各模型进行数据创建、修改、删除等操作时的时间与空间效率。结果表明,GDM在数据集成时其时间和空间效率相对于所比较模型总体来讲是最优的,非常适合异构数据集成。
最后,本文设计了基于GDM模型的异构数据集成系统,介绍了系统的设计框架和实施过程,展示了系统的运行情况,验证了本文所提出的相关理论的可行性和有效性,显示了GDM模型能够比较出色地胜任分布式异构环境下的数据集成和知识发现。
本文在充分比较、分析各种异构数据集成公共模型的基础上,吸纳了相关主要模型的特点和优势,提出了一种面向概念与关系的公共数据模型GDM(即格数据模型,GridDataModel)。GDM模型在关系、段、节等定义的基础上实现了一种新的数据模式定义和结构组织的方式,能够统一描述各种数据结构和语义关系。文中同时给出了GDM模型的形式化标准定义。
为了深入说明GDM模型的语义描述和逻辑推理能力,本文在GDM基本概念的基础上描述了GDM模型的语义推理和领域知识演化原理,并以SHOIQ(D)描述逻辑为例,描述了如何通过GDM语法子集建立与描述逻辑的映射关系,以及如何利用GDM模型构建基于描述逻辑的本体知识库,并对GDM模型的相关推理问题进行了理论证明。
本文接着研究了数据集成过程中数据结构异构的问题。为了实现各种传统数据模型与大数据模型的集成,本文利用GDM模型基于关系的数据结构描述机制,从形式化理论角度研究了各种数据模型向GDM进行模式转换的原理,包括结构化的关系模型、半结构化的XML和多种非结构化的NoSQL数据数据模型。同时还研究了GDM模型能够同时描述有模式数据和无模式数据的混合模式特性以及进行动态修改数据的能力。
本文然后基于虚模式定义了GDM模型代数以及查询语言GDMSQL的语法,并阐述了GDM数据查询过程和查询优化基本原则。以上GDM模型数据管理方案提供了格数据查询和操作的基本方法,是进行基于GDM模型的异构数据集成的必要前提。
基于以上模型定义、相关理论和查询操作语言,本文研究了分布式环境下异构数据集成过程中的查询、处理和优化等若干方面,解决了查询变量关联、查询分解与查询计划生成、查询处理过程的并行调度等相关问题。同时,为了降低异构数据查询处理的时间成本,本文还提出了几种基于最小调度连通图的查询优化方案,通过模拟实验比较了各种优化策略的性能,验证了查询优化方法的有效性。
为了进一步说明GDM模型的优秀特性和数据集成时的效率优势,本文还从各方面比较了GDM及几种基本数据模型的相关特性,并重点与OWL模型进行了深入对比。同时,还基于本文提出的效率评估模型,从时间和空间两个角度比较分析了各模型进行数据创建、修改、删除等操作时的时间与空间效率。结果表明,GDM在数据集成时其时间和空间效率相对于所比较模型总体来讲是最优的,非常适合异构数据集成。
最后,本文设计了基于GDM模型的异构数据集成系统,介绍了系统的设计框架和实施过程,展示了系统的运行情况,验证了本文所提出的相关理论的可行性和有效性,显示了GDM模型能够比较出色地胜任分布式异构环境下的数据集成和知识发现。