论文部分内容阅读
数字化技术和网络的发展推动了海量数据的产生、共享与应用,使得科学与工程研究、教育日益成为数据密集型的工作.科学数据已经成为一种重要的战略资源,将在未来全球科技合作与科技竞争中发挥越来越重要的作用.面对这种新的机遇,世界各国和相关的国际组织都在积极推动科学数据的收集、管理、共享与应用,而我国也启动了国家科学数据共享工程.在科学数据共享中,概括了数据内容、背景、结构、内部关系和来源的高质量元数据对于科学数据的管理、注释、共享、集成和应用至关重要.但是,面向科学数据共享的元数据管理与应用也面临着一系列的问题和挑战,如何在现有标准的基础上,发展学科领域元数据标准;如何实现不同元数据标准的共享与互操作;如何支持应用程序对元数据语义的共同理解,实现应用程序之间元数据信息的自动交换以及在此基础上数据自动融合、集成、计算分析;如何提供便捷的工具实现元数据自动获取;等等.本文就是面向科学数据共享的需求针对上述关键问题展开了研究.
本文首先研究了元数据、元数据标准与本体等相关概念的内涵与外延,厘清了这些概念以及它们之间的关系,探讨了元数据语法表示与封装方法、本体构建方法与Web本体语言.
本文将科学数据共享的基本单元抽象为科学数据对象,该对象是由数据、数据模型和描述型元数据封装成一体的具有唯一标识的数字对象.科学数据对象采用开放式、动态的逻辑封装方法,具有自解释性、自治性、动态性和可扩展性.针对科学数据对象的基本性质与特征,以事件为核心,提出了科学数据共享的元数据参考模型SDBMRM.该模型是一个OWL描述的本体,它不仅为科学数据对象的元数据封装提供了语义模型,也为科学数据共享中元数据标准的发展提供了参考模型,还为科学数据共享中元数据互操作提供了公共的、可共享的顶层语义模型.
元数据注册作为科学数据共享中元数据标准的共享与重用、元数据互操作的基础环境与平台,本文提出了一个开放的注册系统框架,明确了注册对象、注册过程、功能框架与数据模型.本文进一步提出了注册系统元数据模型映射与实例转换的两种主要方法:基于规则的整体直接映射法和基于语义的分层间接映射法.整体直接映射法实现任意两个XML Schema表示的元数据模型的映射,以及在此基础上元数据实例的自动转换.为此,本文重点设计了模型映射与实例转换的规则.间接映射法自动分离元数据模型的语法与语义,模型映射分阶段在语法和语义上分别展开.被分离的语义模型映射到元数据参考模型SDBMRM,从而建立元数据语义关系网络semNet,在此基础上实现模型的语义映射.为此,本文重点设计了从元数据模型的XML Schema语法表示中自动提取OWL语义模型的规则,提出了元数据模型XML Schema语法表示的语义注释方法和semNet本体模型,设计了语义映射中的模型组件发现算法.面向关系型数据库基于语义的集成,研究了关系数据库物理模型与本体模型映射方法,设计了描述这种映射关系的语义元数据模型--D2O本体.基于D2O本体描述的语义元数据,应用系统可以自动实现将关系数据库数据实例提升为本体实例,从而实现基于概念的数据集成.本文进一步提出了基于语义元数据的关系型数据库语义集成框架,设计了语义查询分解与转换方法.