论文部分内容阅读
指代消解是自然语言处理的重点和难点之一。在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都有应用。作者研究框架语义标注的相关理论,如:FrameNet理论、CFN理论等其它的相关理论。作者研究了国内外大量文献和方案,这些文献是关于框架主义标注的指代消解的研究。根据最新研究情况和省自然科学基金的要求,本文提出基于框架语义标注的指代消解。根据研究中发现的不足之处,提出自己研究的内容。本文分析大量的研究,最后从以下3个方面进行了深入的研究:首先,构建了框架语料库。在指代消解研究中,语料是要处理的数据。研究过程中,实验先得收集语料。语料从两个方面进行收集,分别是教学课本和网络上,收集了121篇语料。语料采用LTP工具进行预处理。实验将121语料以XML形式存储。最后得到实验需要的语料。其次,基于规则与最大熵的指代消解的研究。算法中采用5种规则,单复数一致、句法搭配一致、性别一致、距离属性和语义信息一致。最大熵算法采用13种特征。最后用基于规则与最大熵算法的实验结果与最大熵算法的结果进行比较。两种算法都实现了指代消解。规则与最大熵实验结果比最大熵结果突出。最后,基于规则与树核函数的指代消解的研究。算法采用5种简单规则。算法抽取了5种结构化信息树,分别是MCT树、CT树、SPT树、MT树和RMLSPT树。算法采用26个特征。实验最好的结果为右最小左最短路径树。实验同时研究了基于树核函数的指代消解。基于树核函数的最好的实验结果是RMLSPT树。规则与树核函数的实验结果比树核函数的结果突出。