面向跨领域的抽取式语句压缩研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:wang9230c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人工智能获得越来越多的关注,自然语言处理是人工智能的重要研究方向,自动摘要又是自然语言处理的重要任务,语句压缩作为自动摘要的组成部分可以被看成是句子级别的自动摘要,它的目的是将一个长句子压缩成一个通顺的短句子并保持重要的信息。根据是否产生新的词,该任务当前有抽取式和生成式两种设定:抽取式假设压缩句子中的词全部是从原始的句子抽取出来,并没有不同于原句子中词的新词产生;生成式假设压缩句子中词可以和原句子不同,只要表达信息的意思相同即可。本文关注于抽取式的语句压缩任务。已有的工作从是否依赖标记语料的角度可以分为两种。其中,依赖标记语料的方法中取得最好效果的是基于深度学习的序列到序列神经网络语句压缩模型。该模型将语句压缩建模成一个序列标注的问题,首先使用一个循环神经网络对原始句子进行编码,编码之后再通过一个循环神经网络进行解码,解码的每一步输出当前词的标签。不依赖标记语料最好的方法是基于整数线性规划的模型,该方法设置一个优化目标函数,通过添加一些经验性的人工规则约束将语句压缩任务建模成一个整数线性规划的问题,整数线性规划的最优解即压缩的句子。依赖标记语料的深度学习方法尽管能够取得当前最好的效果,但也存在以下两点缺陷:1)需要大量的标记数据,代价昂贵。2)模型的领域泛化能力差。不依赖于标记语料的整数线性规划方法能够获取全局最优解,但也存在时间复杂度高的缺点。针对当前语句压缩方法的上述问题,本文的研究内容和创新点如下:(1)针对序列到序列模型领域适应性差的问题,本文采用迁移学习的概念框架,提出三种与语句压缩相关的辅助任务,构建神经网络来提高序列到序列模型的领域适应性能。实验结果表明,三种辅助任务对语句压缩的领域适应能力都有提高,能够有效提高语句压缩模型的领域适应能力。(2)针对神经网络模型需要数据规模大、领域泛化能力差的问题,提出整合长短期记忆网络和整数线性规划并融合句法特征的语句压缩模型。当前已有工作的神经网络模型是一个完全词汇化的模型,并没有使用到更加具有泛化能力的句法结构特征。本文通过将词性和依存句法类型加入到词向量中,并且借鉴不依赖标记语料的整数线性规划方法,在完成神经网络模型的训练之后,通过使用整数线性规划求全局最优解来获得更好的压缩结果。实验结果表明该方法能够极大减少对标记语料的需求并提高模型的领域泛化能力。(3)针对基于整数线性规划模型的时间复杂度高的问题,提出使用深度强化学习对语句压缩任务进行建模。抽取式设定下的语句压缩可以被看成是序列决策的任务:每一步根据当前的句子状态决定要删除的词。在不依赖标记语料的前提下,本文使用深度强化学习技术对语句压缩任务进行建模。实验结果表明,深度强化学习方法比整数线性规划方法在时间性能上有了极大的提高,在语句压缩性能上也与全局最优的整数线性规划方法取得了相似的效果。
其他文献
随着集成电路制造工艺和体系结构设计水平的不断提高,芯片已进入多核时代。然而,伴随着芯片上的集成度越来越高,特征尺寸的持续缩小加剧了互连线延迟对系统性能的影响,使得片
模糊模型以其令人满意的性能,在控制、图像处理、降噪等众多领域中得到了广泛应用。相比于一型模糊集和一型模糊逻辑系统,二型模糊集和二型模糊逻辑系统具有处理高阶不确定性
冲击波作用下,强度介质界面的扰动增长可能导致表面的物质微喷射、轻重介质混合等复杂物理现象,是材料动力学行为、武器物理内爆和惯性约束聚变点火研究中的难点问题,长期以
近年来,基于深度学习的架构,特别是卷积神经网络,已经使得人工智能领域,特别是计算机视觉领域快速发展。这一进展引发了很多现实世界中的应用,比如人脸检测和识别、个人图像
作为宽禁带半导体,氧化锌是一种重要的光电功能材料。本文通过多种手段,合成了不同结构与形貌的氧化锌半导体纳米材料,并对其进行修饰与改性,以此提高其光电化学性能。本文对
能源是人类生存和发展的重要物质基础,稳定、可靠、安全的能源供应体系和高效、经济、清洁的能源利用方式,二者缺一不可。全球范围内无论发达国家还是发展中国家都在积极推动
容迟容断网络(Delay/Disruption Tolerant Networks,简称DTNs)并不要求链路的传播时延具有上限,也不要求端到端双向链路持续存在,因此被认为是对现有网络架构的有效扩展,用于
随着我国工业化进程的不断加速,制造企业更加重视产品的可用性。对于促进产品可用性因素的研究,企业与学术界多关注于产品的功能性、外在环境、用户体验或交互模式,也有一些
分布式驱动电动汽车以其传动效率高、有利于整车空间布局、便于实现车辆动力学主动控制等特点,成为新能源汽车未来的重点发展方向之一。随着当前汽车产业电动化、智能化和网
液态Li(或Li/Pb)作为主要的氚增值剂,应用于聚变反应堆包层结构中。但在高温下,液态锂对于金属结构材料具有较强的腐蚀作用,会严重影响材料的使用寿命。了解材料在液态锂中的腐