论文部分内容阅读
本体是一种重要的知识库,其包含的丰富的语义信息可以为问答系统、信息检索、语义Web、信息抽取等领域的研究及相关应用提供重要的支持。因而,如何快速有效地构建本体具有非常重要的研究价值。研究者们分别从不同角度提出了大量有效地进行本体构建的方法。一般来讲,这些本体构建方法可以分为手工构建的方法和采用自动、半自动技术构建的方法。手工本体的方法往往需要本体专家参与到构建的整个过程。存在着构建成本高、效率低下、主观性强、移植不便等缺点,因而,此类方法正逐步被大量基于自动、半自动技术的本体构建方法所代替。自动、半自动构建的方法不需要(或仅需少量)人工参与,可以很方便地使用其它研究领域(如机器学习、自然语言处理等)的最新研究成果,也可以方便地使用不同数据源进行本体构建。其中,文本数据源具有数据量大、获取方便的优点。因而,越来越多的研究者开始关注如何有效地使用文本资源进行本体构建。本文全面分析了以文本为数据源,采用自动、半自动技术进行本体构建的国内外最新研究成果。本文首先介绍了当前一些具有代表性的关于以文本为数据源进行本体构建的技术综述文章。在这一部分内容中,本文重点关注了各个综述文章针对本体构建技术研究所得出的结论。接着,本文从“全局”与“局部”两个角度对本体构建方法进行了详细的介绍。在“全局”角度介绍中,本文根据本体构建过程中用到的主导技术,将本体构建方法分为统计主导的方法和语言分析主导的方法两类,分别对各类方法进行了详细的介绍并分析了各类方法的优缺点。在“局部”角度介绍中,本文把本体构建过程分为以下子任务:术语抽取、概念抽取、关系(包括层次关系和非层次关系)抽取、本体形成。分别从每个任务所使用的技术,从“任务—技术”这一角度,介绍了当前以文本为数据源进行本体构建的国内外最新技术研究进展。第三,本文对当前本体构建技术的常用评价方法以及最新关于本体构建技术评价方法的研究成果进行了介绍。第四,本文选取了几种当前在国际上具有广泛影响力的本体构建系统,对其进行本体构建的具体过程以及生成的本体结果进行了介绍。第五,本文对当前本体构建研究过程中所面临的问题和挑战进行了深入的分析。最后,本文结合当前机器学习及自然语言处理研究领域的最新研究成果,讨论了本体构建未来的研究方向。