论文部分内容阅读
对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。随着科学技术的快速发展,本体中新的术语和相关概念也必须实时更新以适应现实的应用。目前人工构建本体的方法十分耗时,而且很难维持维护,因此本体的自动构建与自动扩展显得十分必要。本文主要针对本体自动构建中的一些关键技术进行了研究,具体研究内容主要包括以下几个方面:1.针对特殊应用,参考国内外知名本体,设计了一种适用于特定领域的本体组成结构,将本体中的节点分为两个层级,一是概念层级,另外一个是实例层级,不同的层级具有不同的本体组成结构。提出了基于核心本体的本体构建方法。利用复用现有本体的方法构建核心本体,然后利用从文本中获取本体知识的方法来扩展本体,最终生成一个完整的领域本体。2.提出了基于条件随机场的领域术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF算法训练出一个领域术语特征模板,然后使用该模板进行领域术语抽取,该方法的F-测度达到71.36%。针对领域命名实体具有很强的构成规律这一特点,运用基于规则的方法进行命名实体识别。本文首先将构成领域实体的词汇进行分类,通过对领域命名实体列表进行分析,自动从中学习规则,然后利用这些规则进行领域命名实体识别,实验表明在该领域,这种方法取得了较好的结果,正确率为96.84%,召回率为95.73%,F-测度为96.46%。3.通过模式匹配的方法进行关系抽取和事件抽取。在关系抽取中,采用了基于Boostrapping的关系模式的获取方法。在事件抽取中,采用人工给定触发条件,机器学习获得模式的半自动方式。其中事件抽取取得较好的实验结果,达到了应用要求。