论文部分内容阅读
随着互联网的飞速发展,底层信息抽取技术发展的日趋成熟,搜索引擎等互联网应用也对文本分析提出了更高的要求,不仅仅希望理解一个句子,更希望理解篇章,篇章语义分析逐渐引起了大家的重视。句间关系对篇章语义的分析具有重要的作用,在自然语言处理和信息检索的各个领域都有着重要的作用。句间关系中的因果关系对于问答系统的应用显而易见。所谓句间关系就是指在一个篇章中两个文本单元之间具有的语义关联。本文针对中文句间关系进行系统性的研究。首先我们构建了由1096篇文本构成的句间关系语料,针对语料库的标注内容进行了数据分析,用以挖掘中文句间关系的语言表述特点。分析句间关系各关系之间语义歧义性等问题。句间关系可以分为显示句间关系和隐式句间关系两大类,本文分别针对这两类关系根据其语言特点进行了识别研究。显示句间关系是指具有明显关联词词连接的两个文本单元之间的关系,通过对语料的分析发现关联词对于句间关系具有很强的代表性,因此利用关联词规则的方法对显式句间关系识别进行了研究,研究发现利用关联词规则的方法针对显式关系的识别取得了较好的效果,更近一步利用机器学习与规则结合的方法取得了更为理想的效果,其中条件关系的F值达到了94.93%。隐式句间关系相对于显式关系则相对具有更大的难度和挑战性,因为没有明显的关联词来关联两个文本单元。所以采用了基于机器学习的方法进行识别研究。分别利用最大熵模型和SVM模型进行建模,针对隐式关系抽取了相应的特征,实验发现SVM模型取得了更好的实验结果,最高扩展关系的F值达到了72.36%。同时针对实验所用特征进行了特征分析,其中关键词特征的表现最为出色,对各个关系都起到了很大的表征作用。由于有指导的构建训练语料对语料数量的限制,本文利用过滤后的显式关联词针对因果关系抽取了大量的关系实例,去掉关联词后构成了隐式关系,加入到训练语料中,实验结果表明此种方法使得实验结果的F值有了较为明显的提高。最后,本文考察了句间关系在事件关系识别问题上的应用,以事件因果关系为例,发现加入句间关系特征后事件因果关系的识别效果要比传统的方法实验效果有明显的提升。