论文部分内容阅读
同行评议是科学基金项目评审工作的核心,其效果主要取决于同行专家的选择。本质上,同行专家的选择过程是在已知项目知识的条件下,从专家库中搜索出与己知项目具有相似知识的专家的过程,也可以看作是一个语义检索的过程。本体是语义检索的基础和核心,本体质量的好坏直接影响到语义检索的效果。同时,本体的手工构建由于耗时费力也严重阻碍了本体大规模的应用。因此,本体的自动构建是一个亟待解决的问题。 本文在对国内外本体自动构建相关研究进行全面分析和总结的基础上,提出了基于中文科技论文的本体交互式构建方法。该方法基于系统集成创新的思想,充分利用现有的自然语言处理技术和统计学习方法,从特定领域内的自然语言文本中提取领域概念以及概念间的语义关系。本文的核心工作包括以下三点: (1) 领域概念的提取。主要是通过基于长度递减与串频统计的文本切分方法以及汉语短语词法规则,提取领域的候选概念,然后通过统计方法分析领域归属度并基于词典进行概念约简,得到由多个词和短语组成的与领域相关的概念。 (2) 语义关系的获取。主要是通过关联规则挖掘、依存句法分析以及机器学习方法来学习表达语义关系的关系句法模式,应用已得到的句法模式析取语义关系,并对概念间的语义关系进行命名。 (3) 本体交互式构建原型系统的分析、设计和实现。系统主要分为三个模块:文本管理、本体构建和本体维护,其中重点介绍了本体构建模块的功能和具体实现。 在此基础上,本文以“计算机科学”及其子领域“计算机硬件”的文本为试验对象,基于本文提出的本体交互式构建方法和原型系统构建了一个小规模的领域本体,并对试验结果进行了分析。试验结果表明,本文提出的基于中文科技论文的领域本体构建方法具有较高的准确性,并且不依赖于领域词典,适用于任何领域本体的构建,具有较大的通用性,能够辅助领域专家更高效、准确地完成本体构建的任务。