论文部分内容阅读
语义依存分析建立在依存理论基础上,是深层的语义分析理论。它融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含意思。在许多高层次的研究和应用上,语义依存分析都大有用武之地,将对包括自动问答、信息抽取、机器翻译、信息检索、自动文摘等在内的许多研究和应用产生巨大的帮助。本文重点介绍了语义依存语料库的建设及自动语义依存分析算法研究。语料库的建设主要解决语义粒度问题以及人工标注问题。作者参考了国内各家语义体系,最终以董振东先生《知网》上定义的语义体系为主要参考对象,并综合其他语义体系,制定了本文的语义关系标注规范。语料库的建设是半自动的:首先,使用规则进行部分标注;然后,人工进行标注以及修改;当有了一定规模的语料,则使用机器学习方法进行弧上关系标注,然后人工进行修改。自动语义依存分析是本文的最终目标。目前尚不存在针对语义依存分析的实用算法,与其最相关的算法是依存句法分析以及在句法分析基础上进行的语义角色标注。本文首先应用基于图的算法进行自动语义依存分析。由于目前语料规模较少,语义关系种类比较多,数据稀疏较严重,导致标注准确率不是很高,尤其是弧上关系的标注准确率很低,其中依存弧准确率为79.45%、语义关系准确率为63.93%。针对依存弧及语义关系准确率不高的情况,本文使用依存句法信息作为附加特征指导依存结构的建立,加入谓词语义依存框架来提高弧上关系标注准确率。加入句法信息后,依存弧准确率提高了1.07%;以及加入谓词语义依存框架,语义关系准确率提高了1.19%。当同时加入依存句法信息和谓词语义依存框架时,语义关系准确率提高了2.33%。最后,为适应各种不同的需求以及防止数据稀疏现象,本文还对目前的语义体系泛化,将语义比较接近的关系合并为一类。泛化后,语义关系准确率提高了2.90%。