论文部分内容阅读
领域本体是某一领域(或某一应用)的共享概念模型的形式化的明确说明。目前,领域本体已经被广泛应用于知识管理、语义服务、电子商务、人工智能等多个领域。但是,构建领域本体是一项困难的任务,人工构建费时费力。为此,相关应用领域开始热研能够支持本体(半)自动构建的本体学习方法,即,从数据源中(半)自动地提取本体对象以支持本体构建,提高构建效率并优化结果的机器学习方法。在(半)自动构建领域本体的过程中,主要存在三个问题:提取文档词语、构建领域概念集合和构建本体关系集合。相应地,本文研究了三个本体学习方法,用于从中文文本语料中半自动地提取本体对象,简化中文领域本体的构建过程:1)提出一种新的词语提取方法——原子词步长法。该方法结合原子词词性分析与串频统计来判断汉字串是否成词并建立词语集合,有效地解决了从文档中自动提取所包含的中文词语集合的问题。2)提出一种新的领域概念学习方法——领域隶属同义词分析法。该方法由两个子方法组合而成:领域隶属度分析方法和同义词合并方法,前者用于提取领域专有术语集合,后者用于消除术语集合中的同义现象。在给定合适的文本语料库的情况下,该方法能够解决领域概念集合的构建问题。3)提出一种新的本体关系学习方法—概念特征词法。该方法基于概念的特征词模型来计算两个概念之间的相关程度,学习非类属关系。合成既有的类属关系学习方法后,该方法能够有效支持本体关系集合的构建。上述三个中文领域本体的学习方法均在中文语料上做过多次试验、性能分析和算法改良,学习结果令人满意。并且,这些方法被综合使用到一个国家自然基金委项目(即信息管理和知识管理领域的术语标准化)中,得到了实际应用和验证。本文提出的基于文本的领域本体学习方法具有较高的性能和较强的实用性。在给定合适的文本语料的情况下,采用这些方法可以以人机结合的方式构建面向应用的中文领域本体。实现了构建过程中一定程度的自动化,简化了本体构建任务,从而起到促进本体的产业化发展的作用。经过适当的调整和整合之后,这些本体学习方法还可应用于语义检索、文本摘要等其他诸多领域。