论文部分内容阅读
语义分析是自然语言处理领域的重要问题,也是当前研究的热点和难点问题。由于深层语义分析在目前的技术背景下还难以实现,特别是自动句法分析的瓶颈很难逾越,于是很多学者开始将注意力集中在任务相对简单但很实用的“浅层语义分析(Shallow Semantic Parsing)"上。其中,语义角色标注作为浅层语义分析的一种有效方式,越来越受到自然语义处理领域的关注问句的语义理解伴随着搜索引擎的普及和问答系统的广泛应用而越来越受到人们的特别关注。本文针对中文问句的特点,基于汉语框架网(Chinese FrameNet, CFN),提出了一种综合运用词性筛选和层叠条件随机场模型的方法对中文问句进行语义角色自动标注。本文探索性地对中文问句进行了浅层语义分析,研究内容主要包括以下几个方面:首先,分析研究了中文问句的特点,详细介绍了汉语框架网。通过对面向山西旅游的3011条问句和哈工大问句语料库的分析,问句具有其独特的形式特点,如句子长度一般较陈述句短、具有相对确定的疑问词、表达形式上有一定的结构相似性等特点。其次,本文选用了一种将基于统计方法的条件随机场模型与基于规则方法的词性筛选模型相结合的方式对中文问句进行语义角色自动标注。并提出了一种根据问句目标词共现率来判别句子所属框架的方法。通过实验获得了较为理想的效果。最后,通过实验结果分析了问句语义角色标注的有效特征,对比了问句与陈述句标注的不同之处。并探索性的将问句语义角色标注应用于面向山西旅游智能问答系统,在问题理解和答案抽取阶段取得了理想的实验效果。