论文部分内容阅读
本体能够支持人机之间、机器之间的信息交换、知识共享与重用,而得到越来越广泛的重视、研究和应用。然而,领域本体的匮乏却是困扰本体理论研究与现实应用的最主要瓶颈之一,本体学习应运而生,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。相比国外较多本体学习研究而言,中文环境下本体学习刚刚拉开序幕。本文通过对基于Web的本体学习的研究,为具有实用价值的中文本体学习系统的研发提供理论方法基础。论文在借鉴国外现有的本体学习理论、方法和技术的基础上,结合中文自然语言处理的研究成果,对中文环境下领域本体的概念获取、继承关系学习、属性关系学习和本体实例获取的理论方法展开研究。论文主要研究内容如下:(1)通用本体学习系统的体系结构。设计了一种通用本体学习系统体系结构,由建立在资源层基础上的五大功能模块构成,分别为:资源管理模块、通用资源读写模块、数据预处理模块、本体抽取模块和本体评价与编辑模块。本文所提出的基于Web的本体学习的方法可组件式地无缝集成到该体系结构中。(2)多策略领域概念获取。提出了一种融合信息抽取、中文自然语言处理、语言学和统计等多种策略的领域概念获取算法。能根据页面块特征判定结果自适应选择信息抽取或基于隐马模型和候选名词短语约简的术语获取方法,研究了基于搜索引擎的术语间同义词关系识别方法以及领域概念的过滤算法。(3)继承关系学习。提出了基于Web分类目录判定的继承关系学习方法和基于语境自学习的继承关系学习方法。前者主要包括网页中Web分类目录判定算法、分类目录标注规则、隐式分类目录模式发现机制、标注文档合并中的歧义消解算法以及继承关系映像规则。后者主要包括继承关系语境的自学习机制和基于语境的继承关系获取算法。两种方法各有优缺点,具有互补性。(4)基于知网的属性关系学习。属性关系具有重要作用,但研究很少。首先采用基于语境自学的方法获取候选属性集合;分析认为候选属性集合由非属性词汇、无效属性和有效属性构成,提出了利用知网中属性义原所描述的上下位关系实现非属性词汇过滤和利用属性一一宿主关系实现无效属性过滤的算法;研究基于领域概念树的实现属性关系映射与修剪的基本规则,设计了相应的算法。(5)本体实例的获取。分析了Web网页中个体知识表示的主要形式,提出了基于本体的网页主题概念和个体知识表示特征的判定算法,重点设计了Web表格中本体实例获取的规则,包括本体实例表格识别规则、属性单元识别规则、属性值单元识别的基本规则和扩展规则、实例名称识别规则,给出了算法总体描述。