论文部分内容阅读
地球信息科学经过几十年的发展,在地理认知、地理信息平台以及地理信息共享方面都有了长足的发展。从这三者的需求和发展趋势上来看,语义逐步成为了当前地理信息系统的研究热点之一。近年来,国内外许多学者都意识到地理本体的研究对实现语义层次上的地理信息系统具有重要意义,对促进地球信息科学的进一步发展也具有重要作用。但是地球信息科学及其相关领域的本体研究尚处于初级阶段,理论研究多而应用研究少,广度研究多而深度研究少。本文以地学数据资源共享中的数据检索为应用背景,着重于运用本体理论及技术,在本体多个应用方向中的一个——全文语义检索上作深入的研究和实践。论文从理论技术、模型框架、方法实现和实例应用几个层次,开展了基于地理本体时空特征的全文语义检索研究,主要工作体现在以下几个方面:
在理论基础部分,参阅了国内外学者现有的大量研究成果,从本体理论、地理本体理论、时空推理理论三个方面进行了研究综述。本体理论方面,从来源、定义、分类三个层次对本体概念进行了分析和总结,并对当前存在的多种本体描述语言和本体构建工具进行了比较。地理本体理论方面,首先给出并分析了广大学者从不同角度给出的地理本体的定义,然后在地理本体的构成和层次结构方面做了分析和总结,最后介绍了地理本体理论的研究进展。空间推理相关理论方面,重点介绍并比较了拓扑关系的描述模型和推理方法,明确了两个简单区域间的八种面-面拓扑关系。时间推理相关理论方面,阐述了时间的表达方式及时态表示模型。这些相关理论是本文开展应用研究的基础和前提,对指导本体支持下的语义检索研究具有重要的意义。
在模型框架部分,从两个方面展开。首先,以地理标记语言(GML)规范为参考基础,提出了地理时空本体模型的框架,并研究了构建地理时空本体模型的核心构建方法。从要素模型、几何模型、空间关系模型三个部分实现了空间本体模型;从时间点模型、时间段模型两个部分实现了时间本体模型。然后,基于传统的全文检索系统,结合语义检索技术和要求,提出了基于领域本体的全文语义检索框架模型,详细阐述了模型的组成和功能,为开发实现领域本体支持下的全文语义检索系统提供了框架参考。
在方法实现部分,基于理论和模型框架研究的成果,首先,对开源的传统全文检索工具包Lucene进行了改进,形成了基于Lucene改进的全文检索工具包ELucene。然后,研究了语义检索系统框架中提到的语义标注和本体推理模块实现的关键技术细节:提出并实现了自动语义标注的算法,设计了查询推理引擎接口并提供了接口方法的默认实现,以及进行了语义检索下的相关性算法研究。最后,将实现了的语义标注和本体推理模块同ELucene相结合,形成了一个基于领域本体的全文语义检索工具包(Semantic ELucene)。Semantic ELucene为进行面向具体应用的语义检索案例开发提供了工具,使应用开发的周期大大缩短。
在上述理论、模型、方法研究的基础上,论文最后以“国家科技基础条件平台——地球系统科学数据共享网”为应用背景进行了元数据的区域语义检索实践。在我国典型区划本体库的建设和基于Semantic ELucene的元数据区域语义搜索系统实现两个方面进行了研究,构建了我国行政区划本体模型及行政单元本体实例,研究了其他区划本体的建立方法,实现了一个元数据区域语义搜索的原型系统,并进行了运行测试,测试结果表明元数据的区域语义搜索比现有的元数据搜索系统在查准率和查全率指标上均有了一定的提高。
应用地理本体进行语义检索研究对深化国家科学数据共享工作,满足国家重大科研需求方面具有现实意义。地理本体的构建研究对地学领域的数据互操作及集成等其他方面的应用也打下了良好的基础。