论文部分内容阅读
随着自然语言处理技术的发展,语义分析技术开始应用于中文信息处理的各个领域。基于概念图的语义分析是其中的热点和研究趋势。然而,传统的语义概念图构建方法以句法分析为核心,不适合构建汉语语义概念图。这是因为汉语是概念耦合语言,没有丰富的语法标记,语义、语法相互影响,句法分析困难。因此,只有综合多项关键技术,才能在汉语语义概念图构建方面取得突破。本文主要研究汉语语义概念图构建中的两项关键技术:领域术语识别与抽取技术,及句子语义概念图构建模型。在原有研究的基础上,本文提出一种新的领域术语自动抽取方法,建立句子语义概念图分层构建模型。本文主要研究工作如下:一、在现有研究的基础上,提出一种新的领域术语自动抽取方法。它将背景语料库引入C-value方法,提出词语领域分布度和有效词频概念,并结合术语簇识别与挖掘,改善术语抽取性能。通过计算机领域术语抽取实验,表明本文提出的改进方法(EC-value方法)能更有效地衡量术语的术语性,改善低频术语抽取性能。二、在现有研究的基础上,提出概念一体化设想及分层递归的E-A-V概念图结构,并建立句子语义概念图分层构建模型。该模型使句子语义概念图的构建分层、分步骤进行,将一个复杂的过程分解成几个基本任务,明确语义概念图构建的基本步骤。实验表明,句子语义概念图分层构建模型是有效的,可以构建表示真实语义的概念图。