论文部分内容阅读
篇章分析是自然语言处理中一项极具挑战的任务,它是自然语言理解的基础,对许多自然语言处理的应用而言(如问答系统,自动文章摘要,篇章生成等)意义重大。近年来,篇章理论的发展以及大规模篇章语料的构建,自动篇章分析器的构建越来越变得迫切需要。本文从数据驱动角度出发,以大规模篇章语料PDTB为基础,构建一个端对端的英文篇章分析器。1.本文分三个步骤识别显式的篇章结构。首先,连接词识别,本文将连接词识别看成一个序列标注问题使得模型不再受候选连接词列表的限制;其次,关系语义分类,旨在推断出篇章关系表达的语义信息;最后,论元抽取,我们将论元抽取也看成一个序列标注问题,并针对论元Arg1和Arg2的特殊性对它们分别进行建模。这三个模块级联构成了一个显式篇章分析器。2.考虑到以上三步策略带来的错误传播问题,我们进一步提出一个联合模型来识别显式篇章结构。首先,我们将显式篇章分析简化为两个模块,连接词标注和论元抽取。连接词标注中需要完成连接词识别和显式关系语义分类;论元抽取,旨在抽取连接词驱动的两个论元。然后,为了减少错误传播,同时也为了引入论元与论元之间的交互以及连接词与论元之间的交互,我们提出基于结构化感知机的联合模型来同时完成连接词标注和论元抽取。在PDTB上的实验表明了我们的联合模型的可行性和有效性。3.由于不存在显式的连接词,隐式篇章分析是一个非常困难的问题。为了更好地识别隐式篇章结构,本文借鉴已有的研究成果,首先,构建隐式篇章关系识别的基准系统;然后,针对数据分布的不平衡性,将多元分类拆解成多个二元分类问题,并借助分类器融合技术最大化地使用标注语料;继而,考虑不同特征对多个二元分类的贡献度不同,使用前向特征选择算法为不同的二元分类选择最优的特征集合;最后,依据最大概率原则,将多个二元分类器融合,形成更加可靠的多元分类结果。在PDTB语料上的实验结果表明给出的问题解决方案能很好地提升隐式篇章关系识别的性能。4.完整的端对端篇章分析需要能够处理PDTB体系中所有关系,以及它们关联的论元。相关工作的研究将篇章关系分为显式和隐式(或非显式)关系,然后针对不同的关系进行独立的分析。采用这种方式显得有问题,因为显式和隐式的区分在概念上有些模糊。有些隐式关系可以通过插入适当的连接词来表达语义,同样有些显式关系存在的连接词可以去掉也不影响上下文的语义。为了解决这一问题,本文从论元Arg1和Arg2是否同句,将篇章关系分为Intra和Inter关系,然后依据此类划分构建一个Intra-sentential和Inter-sentential篇章分析器。此外,我们从实际应用角度提出一个新的论元评价标准:主谓词匹配。