面向跨领域的抽取式语句压缩研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户：wang9230c

【摘要】

：

近年来人工智能获得越来越多的关注,自然语言处理是人工智能的重要研究方向,自动摘要又是自然语言处理的重要任务,语句压缩作为自动摘要的组成部分可以被看成是句子级别的自

【作者】

：

汪良果

【出处】

：

北京理工大学

【发表日期】

：

2018年01期

【关键词】

：

自动摘要语句压缩深度学习深度强化学习迁移学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来人工智能获得越来越多的关注,自然语言处理是人工智能的重要研究方向,自动摘要又是自然语言处理的重要任务,语句压缩作为自动摘要的组成部分可以被看成是句子级别的自动摘要,它的目的是将一个长句子压缩成一个通顺的短句子并保持重要的信息。根据是否产生新的词,该任务当前有抽取式和生成式两种设定:抽取式假设压缩句子中的词全部是从原始的句子抽取出来,并没有不同于原句子中词的新词产生;生成式假设压缩句子中词可以和原句子不同,只要表达信息的意思相同即可。本文关注于抽取式的语句压缩任务。已有的工作从是否依赖标记语料的角度可以分为两种。其中,依赖标记语料的方法中取得最好效果的是基于深度学习的序列到序列神经网络语句压缩模型。该模型将语句压缩建模成一个序列标注的问题,首先使用一个循环神经网络对原始句子进行编码,编码之后再通过一个循环神经网络进行解码,解码的每一步输出当前词的标签。不依赖标记语料最好的方法是基于整数线性规划的模型,该方法设置一个优化目标函数,通过添加一些经验性的人工规则约束将语句压缩任务建模成一个整数线性规划的问题,整数线性规划的最优解即压缩的句子。依赖标记语料的深度学习方法尽管能够取得当前最好的效果,但也存在以下两点缺陷:1)需要大量的标记数据,代价昂贵。2)模型的领域泛化能力差。不依赖于标记语料的整数线性规划方法能够获取全局最优解,但也存在时间复杂度高的缺点。针对当前语句压缩方法的上述问题,本文的研究内容和创新点如下:(1)针对序列到序列模型领域适应性差的问题,本文采用迁移学习的概念框架,提出三种与语句压缩相关的辅助任务,构建神经网络来提高序列到序列模型的领域适应性能。实验结果表明,三种辅助任务对语句压缩的领域适应能力都有提高,能够有效提高语句压缩模型的领域适应能力。(2)针对神经网络模型需要数据规模大、领域泛化能力差的问题,提出整合长短期记忆网络和整数线性规划并融合句法特征的语句压缩模型。当前已有工作的神经网络模型是一个完全词汇化的模型,并没有使用到更加具有泛化能力的句法结构特征。本文通过将词性和依存句法类型加入到词向量中,并且借鉴不依赖标记语料的整数线性规划方法,在完成神经网络模型的训练之后,通过使用整数线性规划求全局最优解来获得更好的压缩结果。实验结果表明该方法能够极大减少对标记语料的需求并提高模型的领域泛化能力。(3)针对基于整数线性规划模型的时间复杂度高的问题,提出使用深度强化学习对语句压缩任务进行建模。抽取式设定下的语句压缩可以被看成是序列决策的任务:每一步根据当前的句子状态决定要删除的词。在不依赖标记语料的前提下,本文使用深度强化学习技术对语句压缩任务进行建模。实验结果表明,深度强化学习方法比整数线性规划方法在时间性能上有了极大的提高,在语句压缩性能上也与全局最优的整数线性规划方法取得了相似的效果。

其他文献

基三多核架构中片上网络系统若干关键技术研究

随着集成电路制造工艺和体系结构设计水平的不断提高,芯片已进入多核时代。然而,伴随着芯片上的集成度越来越高,特征尺寸的持续缩小加剧了互连线延迟对系统性能的影响,使得片

学位

多核处理器片上网络路由算法路由器结构流控机制布局布线

二型模糊集的构造、降型和区间二型推理系统性能研究

模糊模型以其令人满意的性能,在控制、图像处理、降噪等众多领域中得到了广泛应用。相比于一型模糊集和一型模糊逻辑系统,二型模糊集和二型模糊逻辑系统具有处理高阶不确定性

学位

二型模糊集区间二型模糊推理构造降型性能

强度介质界面的Richtmyer-Meshkov扰动增长规律研究

冲击波作用下,强度介质界面的扰动增长可能导致表面的物质微喷射、轻重介质混合等复杂物理现象,是材料动力学行为、武器物理内爆和惯性约束聚变点火研究中的难点问题,长期以

学位

高应变率强度Richtmyer-Meshkov流动扰动增长规律

红外图像的目标识别研究

近年来,基于深度学习的架构,特别是卷积神经网络,已经使得人工智能领域,特别是计算机视觉领域快速发展。这一进展引发了很多现实世界中的应用,比如人脸检测和识别、个人图像

学位

分类卷积神经网络集成极限学习机特征提取红外热图像船舶识别行人检测

氧化锌基半导体纳米材料的改性及其光电化学性能研究

作为宽禁带半导体,氧化锌是一种重要的光电功能材料。本文通过多种手段,合成了不同结构与形貌的氧化锌半导体纳米材料,并对其进行修饰与改性,以此提高其光电化学性能。本文对

学位

氧化锌掺杂异质结光电化学性能光催化活性

能源系统可持续性综合评价方法及其应用研究

能源是人类生存和发展的重要物质基础,稳定、可靠、安全的能源供应体系和高效、经济、清洁的能源利用方式,二者缺一不可。全球范围内无论发达国家还是发展中国家都在积极推动

学位

能源系统可持续发展指标体系综合指数多属性综合评价

容迟容断网络路由技术和能效问题的研究

容迟容断网络(Delay/Disruption Tolerant Networks,简称DTNs)并不要求链路的传播时延具有上限,也不要求端到端双向链路持续存在,因此被认为是对现有网络架构的有效扩展,用于

学位

容迟容断网络路由能效问题社会属性节点自私性渗流

促进产品可用性的色彩造型设计研究

随着我国工业化进程的不断加速,制造企业更加重视产品的可用性。对于促进产品可用性因素的研究,企业与学术界多关注于产品的功能性、外在环境、用户体验或交互模式,也有一些

学位

可用性色彩造型设计模式设计评估

分布式驱动电动汽车网络时滞侧向动力学鲁棒控制研究

分布式驱动电动汽车以其传动效率高、有利于整车空间布局、便于实现车辆动力学主动控制等特点,成为新能源汽车未来的重点发展方向之一。随着当前汽车产业电动化、智能化和网

学位

分布式驱动电动汽车车辆状态估计网络延时自适应容积卡尔曼滤波全局鲁棒最优滑模控制控制分配

LIBS技术研究Er2O3涂层和不锈钢基底在液态锂中的腐蚀行为

液态Li（或Li/Pb）作为主要的氚增值剂,应用于聚变反应堆包层结构中。但在高温下,液态锂对于金属结构材料具有较强的腐蚀作用,会严重影响材料的使用寿命。了解材料在液态锂中的腐

学位

液态锂腐蚀Er2O3涂层被腐蚀层腐蚀产物金属过渡层元素成分分布LIBS

面向跨领域的抽取式语句压缩研究

与本文相关的学术论文