论文部分内容阅读
近几年,中文信息处理的发展已经不再局限于简单的事实类问题,研究更多的是言语理解方面的复杂问题,在信息抽取,文本摘要等应用中都用到指代消解,能够准确的进行指代消解,在自然语言处理中尤为重要。2015年至2017年,山西大学承担了国家“863”项目中的“语言问题求解和答案生成关键技术及系统”课题,主要负责基于篇章深层语义理解的阅读理解,在解决问题的过程中,指代消解的研究是研究的基础任务。基于这种需求,本文致力于研究并解决阅读理解中的指代消解问题。本文的研究主要分为以下三个部分:(1)利用N-Gram语言模型来解决指代消解问题进行指代消解,必须考虑到词语与词语之间的搭配关系,因此本文选择利用N-Gram语言模型来进行研究。研究的主要步骤是用候选的先行词将照应语替换,然后用模型来计算替换后句子的概率,将概率最高的词语或者短语作为最终的指代语。需要强调的是因为计算效果和空间消耗的制约,本文最终选择了二元语言模型,即Bi-Gram语言模型。(2)利用最大熵模型来解决指代消解问题在利用Bi-Gram语言模型研究之后,发现实验结果并不理想,研究其原因,在利用Bi-Gram语言模型时,并未用到句法、语义信息,导致指向不明确。所以在接下来的研究中,采用了最大熵模型,将句法、语义信息作为特征加入其中。研究的主要步骤是通过计算待消解对在特征上保持一致的概率来确定最终是否可以消解,在本文中使用的特征主要指单复数一致性,性别一致性,距离属性,句法特征,语义特征五个特征。(3)指代消解系统本文利用以上两种方法,构建了一个指代消解系统,该系统采用的语料是各省历年的高考语文阅读理解文章。为解决阅读理解问题提供了基础的技术支持。