论文部分内容阅读
互联网是人类到目前为止构建的一个最大的信息库,全世界的用户都可以在Web上提供内容.当越来越多的人开始使用互联网时,Web上的数据开始以指数级规模增长,Web上的资源与服务也越来越丰富.未来Web的发展方向将是一个人和计算机"共存"的世界:智能agent代表其所有者,通过与Web上的各种服务和软件agent的交互,代替所有者在 Web上执行各种复杂操作.
现阶段 Web 上的绝大部分内容都是为人的阅读设计的,现有的软件agent还不能很好地集成Web上的各种页面和服务.Web的简单结构和匮乏语义极大地限制了 Web的进一步发展和应用,传统Web很快就达到了它的临界点,语义Web成为了未来 Web发展的方向.
通过给 Web 数据附加语义,理论上 Ontology 是一个语义Web上数据互操作的很好的解决方案.然而,在实际的Web环境中,语义异构或者说Ontology异构仍然是语义Web上一个不可回避的问题.语义的方法把Web上数据的异构性简化为Ontology之间的异构性,从而向机器之间的相互操作前进了一大步,但在达到最终目标之前还存在着一个障碍.任何试图改进语义Web互操作性的努力都最终地落在了协调不同系统之间的不同 Ontology上.这种协调通常能通过自动或者半自动地匹配Ontology达到.这篇论文的工作就是为了解决语义集成过程中必然会出现的Ontology匹配问题.
本文将主要研究在异构的语义Web的环境下,不同的Ontology之间的互操作问题.为了达成Ontology之间的相互操作,必须寻找Ontology之间的匹配关系.本文创造性地提出了基于数据实例分类的匹配模型DICM,使用多策略的文本分类技术,把Ontology的匹配问题归结为Ontology数据实例的分类问题,为异构的语义互操作问题提供了一条创新的可靠的解决途径.本文全面分析了Ontology匹配过程中可能出现的问题,然后对其中的三个问题进行了深入研究,包括Ontology概念结点的1-1匹配、Ontology属性的1-1匹配以及Ontology元素的1-n匹配和层次Ontology的匹配问题.我们设计并实现了一个实验平台SIMON,这个基于多策略学习的Ontology匹配系统被成功地运用于欧洲委员会信息社会总司的eTEN项目上(No.C510711).在该平台上,我们进行了大量的对比实验,实验结果验证了本文提出的模型和算法的有效性.
本文的贡献和创新性工作主要体现在以下几个方面:
1.本文从对Ontology的数据实例进行分类的角度构建Ontology匹配的体系结构,为异构的Ontology匹配提供了一个创新的、可操作的模型DICM.在该模型的基础上,建立了一个基于Ontology匹配的语义互操作系统SIMON以及用于测试匹配系统的数据实例库DIBOM,并在一些实际的应用领域中取得了良好的匹配效果.
2.本文使用多策略的匹配学习方法寻找Ontology之间的匹配关系.我们的匹配学习方法尽量充分地并且分层次地挖掘数据实例当中隐含的信息,包括实例名、实例的内部特征以及实例之间的关联特征.我们在系统中除了使用通常的文本分类方法如朴素贝叶斯分类器来挖掘数据实例内部的分类匹配信息外,系统还引入一阶逻辑学习算法FOIL来分析数据实例之间的语义联系.为了结合单一分类器的结果,我们提出了创新的匹配委员会方法--最突出的冠军BOC方法,从而能够很好的累积单一分类器的正确匹配.
3.本文提出了一个完整的Ontology匹配系统的范例.由于我们拥有真实完整的数据实例库DIBOM,使得我们不但能解决Ontology之间概念结点的匹配问题,并且可以进一步深入地研究Ontology属性匹配问题.针对属性匹配的训练样本相对较少、对分类算法的精确度要求高的特点,我们把具有高分类精度的SVM算法引入到了DICM模型中;针对不同的属性类型,我们提出了匹配搜索器的概念.匹配搜索器以插件的形式存在,使得属性匹配系统高度模块化,易于共享及扩充;针对特殊的对象类型属性,我们提出了基于一阶逻辑的解决方案FOOPM.
4.除了解决简单的Ontology元素的1-1匹配之外,本文还研究了Ontology元素的1-n匹配和层次结构匹配这两类有代表性的复杂匹配问题.对于Ontology的1-n匹配问题,我们提出了基于优化搜索的MultiMatch方法;对于层次结构的Ontology结点匹配问题,我们提出了特征属性集合数据实例划分模型FPSDID和扁平化的层次Ontology匹配算法FHOM.