论文部分内容阅读
随着计算机技术的发展和数据库的广泛应用,基于多种异构数据源的互操作需求越来越多。由此上世纪90年代人们提出了多数据库等结构化信息集成框架,然而近十年来,网络中可供利用的信息总量以惊人的速率增长,另一方面应用需求的变化表现得更加频繁,面对海量的信息和不断变化的应用需求,结构化集成方案表现出一定的局限性。主要表现在对信息语义无法实现机器处理,集成过程复杂、自动化程度低,无法适应新一代应用的需求。传统的多数据库信息集成方案需要手工建立从局部信息空间到全局信息空间各级模式间的映射,互操作的共享语义也没有形式化,部分语义依然以代码逻辑的形式呈现,从系统论的角度来说集成系统未来可能需要集成为更大的超系统,这些代码逻辑依然会成为集成的障碍。针对这些问题提出了一种基于本体映射的语义异构信息源集成框架(HISIM),该集成方法针对动态的应用需求自动合成互操作共享语义,实现集成过程的高度自动化,更加符合当前实际应用的需要。本体作为一种有效的语义建模方法,在智能信息集成领域得到广泛的关注和应用。互操作信息源间缺失的语义和信息源应用系统中蕴涵的代码逻辑语义都需要一种声明式的、形式化的描述。为了在不同本体之间构建代数系统来解决异构信息集成中的语义冲突,提高信息集成的正确性、一致性和有效性,给出了本体的形式化定义和代数结构描述。鉴于XML已成为互连网上事实上的数据交换标准,给出了基于XML的本体表示和概念的检索方法。在给出了本体的分类及全局本体、用户本体、局部本体的定义后,根据一个具体的实例给出了局部本体到全局本体的映射规则,该方法具有一定的普适性,转换规则通常以一种机器可识别和处理的方式表达,可以提高集成工作的智能化、自动化程度。通过模拟人类记忆和联想的生理特点,给出了全局本体的语义关联模型;基于全局本体的语义关联模型,利用语义知识单元间纵横向语义关联实现了语义知识单元的查询,并给出了具体的算法,由此可以检索互操作局部本体间的相关本体,依据相关本体、局部本体和全局本体给出了用户本体的合成算法,用于用户本体的生成。查询处理是根据查询计划进行调度,并通过查询处理操作完成中间结果组装的过程,查询处理操作主要由全局查询涉及的所有场地间运算来完成。通过分析本体映射语义给出了查询处理的类型和转换规则,提出了一种连接树结构来表达集成系统的查询处理操作,并对其进行规范化处理。通过引入查询图的概念,将连接规范树转换为等价的查询图,供后查询处理调度使用,并给出了基于查询图的查询处理多级并发调度算法,以尽可能提高查询处理执行的并发性。在分析了影响查询处理优化的代价参数后,给出了局部数据源代价和通信代价的估计方法。笛卡儿积往往是查询处理中开销最大的运算,会产生大量的无效元组,应尽量避免,以场地间连接和外连接运算组成的查询图为基础,给出了一种基于线性序列的静态优化算法LOS和一种基于统计推理的动态优化方法SRD,并通过实验仿真的方法对它们的优化性能进行了实验分析和性能比较,实验结果验证了它们的有效性。