论文部分内容阅读
篇章关系是文本中的组成部分彼此之间的语义关系,篇章语义关系分析是自然语言处理中的一个基本任务,很多其他任务都能从中受益。本文对篇章关系的关键技术进行了研究,对篇章关系标注的规范、篇章关系的自动识别及其应用等进行了初步的探索。 传统的篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密。本文中我们参考现有的语言学理论和一些语篇标注库(如RST-DT,PDTB),并结合自然语言处理中的任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够准确和比较全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。本文的贡献主要集中在以下几点: 首先,我们对篇章基本单位的识别进行了研究。 其次,我们对已有的篇章标注的规范及语料进行了研究,结合自然语言处理任务的实际需求和语言学理论,制订了一种新的篇章标注规范。与这套规范同时,我们开发了一套标注工具,实际标注了一些文本并进行了分析。 再次,同时我们还对篇章关系的自动识别,进行了研究,提出了一种新的篇章关系识别的方法,在多种语料上进行了测试,均取得较好的结果。 另外,我们进行了框架的识别,框架的识别可以看作是内容标签的识别,识别这些框架可以为更好地服务于文本标注,也可以服务于其他任务,如摘要生成等。