基于PDTB的端对端英文篇章分析器的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:weibo525525888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章分析是自然语言处理中一项极具挑战的任务,它是自然语言理解的基础,对许多自然语言处理的应用而言(如问答系统,自动文章摘要,篇章生成等)意义重大。近年来,篇章理论的发展以及大规模篇章语料的构建,自动篇章分析器的构建越来越变得迫切需要。本文从数据驱动角度出发,以大规模篇章语料PDTB为基础,构建一个端对端的英文篇章分析器。1.本文分三个步骤识别显式的篇章结构。首先,连接词识别,本文将连接词识别看成一个序列标注问题使得模型不再受候选连接词列表的限制;其次,关系语义分类,旨在推断出篇章关系表达的语义信息;最后,论元抽取,我们将论元抽取也看成一个序列标注问题,并针对论元Arg1和Arg2的特殊性对它们分别进行建模。这三个模块级联构成了一个显式篇章分析器。2.考虑到以上三步策略带来的错误传播问题,我们进一步提出一个联合模型来识别显式篇章结构。首先,我们将显式篇章分析简化为两个模块,连接词标注和论元抽取。连接词标注中需要完成连接词识别和显式关系语义分类;论元抽取,旨在抽取连接词驱动的两个论元。然后,为了减少错误传播,同时也为了引入论元与论元之间的交互以及连接词与论元之间的交互,我们提出基于结构化感知机的联合模型来同时完成连接词标注和论元抽取。在PDTB上的实验表明了我们的联合模型的可行性和有效性。3.由于不存在显式的连接词,隐式篇章分析是一个非常困难的问题。为了更好地识别隐式篇章结构,本文借鉴已有的研究成果,首先,构建隐式篇章关系识别的基准系统;然后,针对数据分布的不平衡性,将多元分类拆解成多个二元分类问题,并借助分类器融合技术最大化地使用标注语料;继而,考虑不同特征对多个二元分类的贡献度不同,使用前向特征选择算法为不同的二元分类选择最优的特征集合;最后,依据最大概率原则,将多个二元分类器融合,形成更加可靠的多元分类结果。在PDTB语料上的实验结果表明给出的问题解决方案能很好地提升隐式篇章关系识别的性能。4.完整的端对端篇章分析需要能够处理PDTB体系中所有关系,以及它们关联的论元。相关工作的研究将篇章关系分为显式和隐式(或非显式)关系,然后针对不同的关系进行独立的分析。采用这种方式显得有问题,因为显式和隐式的区分在概念上有些模糊。有些隐式关系可以通过插入适当的连接词来表达语义,同样有些显式关系存在的连接词可以去掉也不影响上下文的语义。为了解决这一问题,本文从论元Arg1和Arg2是否同句,将篇章关系分为Intra和Inter关系,然后依据此类划分构建一个Intra-sentential和Inter-sentential篇章分析器。此外,我们从实际应用角度提出一个新的论元评价标准:主谓词匹配。
其他文献
随着网络技术和多媒体技术的飞速发展,网络视频监控已广泛应用于军事、交通、公安、银行、小区、仓库、远程支援和远程教学等领域。近年来,控制技术、通信技术以及微处理器性能
原型系统在软件开发中占据着非常重要的地位,在软件开发的分析阶段开发原型系统是一个用来消除客户和软件开发者之间的理解误差和验证客户需求的有效方法。如果能够根据系统需
随着Internet的深入应用,企业及政府中的重要应用系统被入侵的危险越来越大,信息安全成为日益关注的重要问题。基于静态系统观点的传统安全策略(例如防火墙,访问控制,加密等)无法
目前,数据挖掘技术在得到了广泛应用的同时也面临着较大的挑战。首先,不同的厂商对数据挖掘模型有着不同的定义,妨碍了挖掘模型在不同的数据挖掘系统之间的共享;其次,大量数
计算机技术和无线通讯技术的发展和结合使得一种全新的计算模式--移动计算横空出世、应运而生。它是无线通信、网络技术与移动计算设备相结合的产物,是一种更加灵活、更加复
时间是数据的客观属性。随着数据库技术的深入和发展,时态在数据库系统中扮演着日益重要的角色。数据库技术发展到今天,仅仅使用数据库保存当前数据和历史数据已远远不能满足人
随着计算机和数字通信技术的迅速发展,数字签名技术应运而生。代理签名是数字签名中的一种特殊的签名形式,是原始签名方将签名权委托给代理签名方,由代理签名方代表原始签名方进
基于语音板卡的应用开发大都是用语音卡厂家所提供的硬件API接口来编程,最大的问题就是编程复杂,而且业务代码和底层代码混合在一起,很难调试和维护,而且语音卡是多路并发的
随着Linux在图形系统中的占有率的不断增大和嵌入式图形处理器(Graphics Processing Unit, GPU)的应用领域不断扩大,Linux下的GPU图形驱动软件的设计和研究越来越受重视。图
命题可满足性问题(SAT)是判定一个给定的CNF形式的命题逻辑公式是否存在可满足的赋值的问题。SAT问题是数理逻辑、人工智能和理论计算机科学中的核心问题,也是解决许多实际问