英文篇章结构分析关键问题研究

被引量 : 10次 | 上传用户:sb871697914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近三年来,篇章结构分析(Discourse Structure Analysis,简称DSA)受到了计算语言学界的广泛关注(据统计,每届ACL、COLING和EMNLP会议上均发表8篇以上篇章结构分析方面的论文,而这方向的投稿文章则达30篇以上)。篇章结构分析研究成为了继传统信息抽取/信息检索、机器翻译和句法/语义分析领域之后的又一个研究热点。DSA旨在研究自然语言文本的内在结构,通过对文本单元(可以是词、短语、从句、句子或段落)的上下文进行全局分析来理解文本单元间的语义关系。因此,篇章结构分析能够抽取出文本内部丰富的结构化信息,对自然语言理解和自然语言生成均起着至关重要的作用。目前主流的DSA研究比较注重篇章中的词汇层面信息,例如:篇章中单词、单词形态学变化和单词对等;然而,篇章中句子的态度和句子的衔接方式等方面的信息却少有研究,导致目前的篇章结构分析性能不高。鉴于此,本文围绕学界广泛关注问题,在以下三个方面展开研究。具体而言:1.隐式篇章关系识别(Implicit Discourse Relation Recognition,简称IDRR)研究。本文在研究了基于单词对、语言模型和树核函数的隐式篇章关系识别模型的基础上,提出了一个基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。上述方法在国际基准语料Penn Discourse Treebank (PDTB)2.0上进行试验,实验表明采用基于态度韵律理论的隐式篇章关系识别模型后,IDRR的准确率与目前基于单词对、语言模型和树核函数的方法相比得到显著提升。2.篇章论元识别(Discourse Argument Identification,简称DAI)研究。本文从句内(连接词与论元处于同一句)和句外(连接词与论元不处于同一句)两种情形分别处理DAI。针对句内情况,在研究基于组块、基于分类和基于句法树裁减方法的篇章论元识别模型的基础上,提出了一个基于浅层语义分析框架的篇章论元识别模型。该模型将篇章连接词看作谓词,并将谓词的论元映射成句法树中的一些组块,将传统方法的组块层次研究提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。针对句外情况,本文提出了一种轻量级的规则解决方案,将连接词到当前句尾的单词序列和连接词的前一句分别作为连接词对应的两个论元。上述方法在国际基准语料PDTB上进行试验,实验表明采用基于浅层语义分析框架的篇章论元元识别模型后,DAI的F1值与目前基于组块的方法相比得到显著提升。3.篇章连贯性建模(Discourse Coherence Modeling,简称DCM)研究。本文在研究了基于实体和基于篇章关系的篇章连贯性模型的基础上,提出了一个基于主位-述位结构衔接性理论的篇章连贯性模型。该模型通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。上述模型在五种不同文体的国际基准语料上进行试验,实验表明采用基于衔接性理论的篇章连贯性模型后,DCM的准确率与目前基于实体和篇章关系的有监督学习方法相比得到显著提升。在此基础上,本文设计了基于树核的英文篇章结构分析平台,并将上述三个关键问题的研究算法一并加以集成。为了验证上述方法对自然语言处理相关应用的实际作用,本文引入了学生作文的可读性评估作为测试实例,通过线性拟合等方法,将篇章关系值和篇章连贯性值作为可读性评估值。上述研究在开放语料上建立模型,并在实际语料上进行试验,结果表明了本文构建的英文篇章结构分析平台对于学生作文可读性评估十分有效,与目前基于实体和基于篇章关系的有监督学习方法相比,在算法精度和减少对大规模语料库的依赖性等方面具有优势。本文的创新点主要表现在:(1)针对隐式篇章关系识别研究,提出了基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。与同类方法相比,在国际基准PDTB语料上将隐式篇章关系识别性能提升了大约6%;(2)针对篇章论元识别研究,提出了基于浅层语义分析框架的篇章论元识别模型,将传统方法的组块层次提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。与同类方法相比,在国际基准PDTB语料上将标准句法树和自动句法树上的篇章论元识别性能分别提升了大约2%和6%;(3)针对篇章连贯性建模研究,提出了基于主位-述位结构衔接性理论的篇章连贯性模型,通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。与同类方法相比,在国际基准Accident、Earthquake、Wall street journal、Britannical elementary语料上将篇章连贯性检测性能分别提升了3%-6%。本文的主要贡献:对篇章结构分析中的关键技术进行了深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。实验表明,本文提出的这些方法有助于提高篇章结构分析的性能,同时减少对大规模语料库的依赖性,为今后的篇章结构分析研究奠定了一个重要基础,为同类研究提供了一个参考。
其他文献
目的:本次研究通过对120例符合纳入标准的结直肠癌患者一般资料及手术前后四诊资料的收集,来初步探讨结直肠癌患者手术前后中医证型分布的特征及演变规律,以期为结直肠癌患者
近几年来,中国经济呈现出高速发展的趋势,注册会计师行业也得到了快速发展,随着人民生活水平的提高和经济的快速发展,公众对注册会计师行业提出了更高的职业要求。而国家的一
目的:观察运用李东垣升阳法治疗脾胃气虚型功能性消化不良的临床疗效,使用升阳益胃汤作为李东垣升阳法治疗脾胃气虚型功能性消化不良的代表方,与香砂六君子汤的疗效相比较,探
现如今世界经济全球一体化发展,资金国际间流通频繁,国际结算需求日益增加,银行国际业务理所当然越来越被重视。我国银行国际业务的发展,由于特定国情所影响,发展资历虽然相
自2001年《英语课程标准》中提出了任务型教学法以后,这种教学模式很快受到了我国中小学课堂的欢迎。该教学方法突出了“以人为本”的教学核心,课堂教学主要以任务为途径,学生在
目的:研究以神阙灸配合针刺治疗男性勃起功能障碍,进而评估其临床疗效及安全性,并对神阙灸配合针刺的治疗机理进行深入的研究。本研究采以随机对照的研究方法,观察神阙灸配合
腰椎间盘突出症(lumbar disc herniation, LDH)是一种腰椎纤维环退化性疾病,为临床多发病,多见于男性青壮年。腰椎间盘突出症的发生多由于现代生活工作方式改变所致,具有严重
在改革开放的历史背景和现实情境中,我们总会面临种种困难,但伟大的民族精神和激扬的时代精神都会带给我们无限的勇气和信心。励志剧作为一种描写人物面对挫折,坚持信念,最终
当代著名学者钱钟书先生的小说《围城》以其丰富多彩、诙谐幽默、发人深省的比喻修辞而为人所称道。在翻译过程中,译者是采取何种策略处理这些比喻修辞的呢?是要把源语本土化
矿业文化是人类在矿业开发实践中产生、源于矿业开发实践又反作用于矿业开发实践的艺术、知识和观念以及与之相适应的矿业开发组织、制度、行为和由此产生的矿业物质财富和精