论文部分内容阅读
近年来,随着计算机应用和网络技术的不断发展,信息资源越来越丰富,如何对信息与知识进行有效的组织和管理,以便于信息与知识的共享和利用成为一项迫切而重要的研究课题。本体是一种能对语义和知识进行描述的概念模型,其目的在于以一种通用的方式来描述指定范围内的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重利用。
本文的研究重点在本体构建平台的开发,以及本体自动构建相关技术的研究上。本体的构建平台为对本体的编辑操作提供了可能。当前,在中国还没有相应的中文本体构建平台出现。但是,国外已经有了不少比较优秀的本体构建平台,如Protege、OntoEdit等。软件行业的一个很重要的概念就是“重用”。因此在本体构建平台的开发中,本论文直接对国外开源本体编辑平台进行相应的调整,如界面定制、数据转换等,使其适用于中文本体编辑的需要。
在搭建了本体构建平台的基础上,本论文进一步研究本体自动构建的相关关键技术。本体自动构建所要提取的基本知识有两个:领域术语和领域术语之间的相互关系。本文的重点是研究如何从文本中自动识别术语之间的相互关系。本文首先介绍了一种提高基于规则的方法在稀疏语料中性能的方法。实验表明这种方法较为成功地解决了在建立计算机领域本体时所出现的问题。然后,本文介绍了一种利用标注的序列模式(Labeled Sequential Patterns,简称LSP)来提取关系的方法。这种方法是是对基于统计的方法和基于模式的方法的综合。实验证明,这种方法既有统计方法的高性能又有规则方法的低代价。另外,论文作者通过分析发现,关于术语提取以及术语关系提取的研究一直以来都是相互分离的。在当前的研究中,对于术语的提取,很少有方法用到术语之间的关系信息。而对于关系的提取,一般的提取过程都是首先标注语料中的术语,然后才利用各种方法来发现这些术语之间的相互关系。本文最后介绍了一种将这两个问题进行整合与互动的方法,并将这种方法应用到两个不同的领域。实验表明,这种方法不仅提高了关系提取的性能,也对术语的提取有所改善。