论文部分内容阅读
近三年来,篇章结构分析(Discourse Structure Analysis,简称DSA)受到了计算语言学界的广泛关注(据统计,每届ACL、COLING和EMNLP会议上均发表8篇以上篇章结构分析方面的论文,而这方向的投稿文章则达30篇以上)。篇章结构分析研究成为了继传统信息抽取/信息检索、机器翻译和句法/语义分析领域之后的又一个研究热点。DSA旨在研究自然语言文本的内在结构,通过对文本单元(可以是词、短语、从句、句子或段落)的上下文进行全局分析来理解文本单元间的语义关系。因此,篇章结构分析能够抽取出文本内部丰富的结构化信息,对自然语言理解和自然语言生成均起着至关重要的作用。目前主流的DSA研究比较注重篇章中的词汇层面信息,例如:篇章中单词、单词形态学变化和单词对等;然而,篇章中句子的态度和句子的衔接方式等方面的信息却少有研究,导致目前的篇章结构分析性能不高。鉴于此,本文围绕学界广泛关注问题,在以下三个方面展开研究。具体而言:1.隐式篇章关系识别(Implicit Discourse Relation Recognition,简称IDRR)研究。本文在研究了基于单词对、语言模型和树核函数的隐式篇章关系识别模型的基础上,提出了一个基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。上述方法在国际基准语料Penn Discourse Treebank (PDTB)2.0上进行试验,实验表明采用基于态度韵律理论的隐式篇章关系识别模型后,IDRR的准确率与目前基于单词对、语言模型和树核函数的方法相比得到显著提升。2.篇章论元识别(Discourse Argument Identification,简称DAI)研究。本文从句内(连接词与论元处于同一句)和句外(连接词与论元不处于同一句)两种情形分别处理DAI。针对句内情况,在研究基于组块、基于分类和基于句法树裁减方法的篇章论元识别模型的基础上,提出了一个基于浅层语义分析框架的篇章论元识别模型。该模型将篇章连接词看作谓词,并将谓词的论元映射成句法树中的一些组块,将传统方法的组块层次研究提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。针对句外情况,本文提出了一种轻量级的规则解决方案,将连接词到当前句尾的单词序列和连接词的前一句分别作为连接词对应的两个论元。上述方法在国际基准语料PDTB上进行试验,实验表明采用基于浅层语义分析框架的篇章论元元识别模型后,DAI的F1值与目前基于组块的方法相比得到显著提升。3.篇章连贯性建模(Discourse Coherence Modeling,简称DCM)研究。本文在研究了基于实体和基于篇章关系的篇章连贯性模型的基础上,提出了一个基于主位-述位结构衔接性理论的篇章连贯性模型。该模型通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。上述模型在五种不同文体的国际基准语料上进行试验,实验表明采用基于衔接性理论的篇章连贯性模型后,DCM的准确率与目前基于实体和篇章关系的有监督学习方法相比得到显著提升。在此基础上,本文设计了基于树核的英文篇章结构分析平台,并将上述三个关键问题的研究算法一并加以集成。为了验证上述方法对自然语言处理相关应用的实际作用,本文引入了学生作文的可读性评估作为测试实例,通过线性拟合等方法,将篇章关系值和篇章连贯性值作为可读性评估值。上述研究在开放语料上建立模型,并在实际语料上进行试验,结果表明了本文构建的英文篇章结构分析平台对于学生作文可读性评估十分有效,与目前基于实体和基于篇章关系的有监督学习方法相比,在算法精度和减少对大规模语料库的依赖性等方面具有优势。本文的创新点主要表现在:(1)针对隐式篇章关系识别研究,提出了基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。与同类方法相比,在国际基准PDTB语料上将隐式篇章关系识别性能提升了大约6%;(2)针对篇章论元识别研究,提出了基于浅层语义分析框架的篇章论元识别模型,将传统方法的组块层次提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。与同类方法相比,在国际基准PDTB语料上将标准句法树和自动句法树上的篇章论元识别性能分别提升了大约2%和6%;(3)针对篇章连贯性建模研究,提出了基于主位-述位结构衔接性理论的篇章连贯性模型,通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。与同类方法相比,在国际基准Accident、Earthquake、Wall street journal、Britannical elementary语料上将篇章连贯性检测性能分别提升了3%-6%。本文的主要贡献:对篇章结构分析中的关键技术进行了深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。实验表明,本文提出的这些方法有助于提高篇章结构分析的性能,同时减少对大规模语料库的依赖性,为今后的篇章结构分析研究奠定了一个重要基础,为同类研究提供了一个参考。