论文部分内容阅读
如今,Web成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想要的信息其实并不容易。语义Web的出现解决了上述矛盾。语义Web(语义网)提供了一个通用的框架。允许跨越不同应用程序、企业和团体的边界共享和重用数据。作为语义Web中知识语义元数据的载体,本体成为了语义Web的核心元素。
为了将目前无序的Web改造成有序的计算机可理解的知识宝库,语义Web采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,因此本体的构建是实现语义Web的关键环节。本体构造是一个非常复杂的过程,它需要多个领域的专家参与。虽然目前本体构建工具已经较为成熟,但本体的手工构造仍是一项繁琐而辛苦的任务,在构建的初期和维护阶段需要花费大量的人力,构造合适的通用本体或分类体系需要大量的修剪和编辑时间,并最终导致所谓的知识获取瓶颈。
为了解决本体构建的开销问题,本体学习技术可以说当前的一个研究热点。其目的旨在使用能够实现本体自动构建的机器学习技术来协助知识工程师构建本体。本文基于传统的本体学习方法,针对目前本体学习的薄弱环节和关键问题,提出了新的思路,主要研究工作如下:
·针对概念和实例抽取,通过使用统计方法和自然语言处理技术相结合的方式提取术语,利用语义角色标注及生成的语义依存结构对候选术语进行筛选,通过语义环境及语义角色关系的分析,确定未知概念与实例的正确本体归属。
·针对非分类关系的抽取,采用基于框架语义和论元语义的语义角色标注方法,引进语义信息到依存树,获得目标文集经过语义角色标注的句法语义依存结构SSDS,然后通过定义的核函数计算概念或实例之间的语义相似度,来确定发现的术语是概念或实例归属时,就可以依据语义框架或述词论元为其标注关系。
·在提出的本体学习方法基础上,设计实现了SDEOL半自动本体学习系统,采用传统本体学习方法与本文所述基于语义依存分析方法结合的方式进行本体学习。实验结果表明基于语义依存分析的本体学习方法是对传统本体学习的一个有效补充。