论文部分内容阅读
近年来人工智能获得越来越多的关注,自然语言处理是人工智能的重要研究方向,自动摘要又是自然语言处理的重要任务,语句压缩作为自动摘要的组成部分可以被看成是句子级别的自动摘要,它的目的是将一个长句子压缩成一个通顺的短句子并保持重要的信息。根据是否产生新的词,该任务当前有抽取式和生成式两种设定:抽取式假设压缩句子中的词全部是从原始的句子抽取出来,并没有不同于原句子中词的新词产生;生成式假设压缩句子中词可以和原句子不同,只要表达信息的意思相同即可。本文关注于抽取式的语句压缩任务。已有的工作从是否依赖标记语料的角度可以分为两种。其中,依赖标记语料的方法中取得最好效果的是基于深度学习的序列到序列神经网络语句压缩模型。该模型将语句压缩建模成一个序列标注的问题,首先使用一个循环神经网络对原始句子进行编码,编码之后再通过一个循环神经网络进行解码,解码的每一步输出当前词的标签。不依赖标记语料最好的方法是基于整数线性规划的模型,该方法设置一个优化目标函数,通过添加一些经验性的人工规则约束将语句压缩任务建模成一个整数线性规划的问题,整数线性规划的最优解即压缩的句子。依赖标记语料的深度学习方法尽管能够取得当前最好的效果,但也存在以下两点缺陷:1)需要大量的标记数据,代价昂贵。2)模型的领域泛化能力差。不依赖于标记语料的整数线性规划方法能够获取全局最优解,但也存在时间复杂度高的缺点。针对当前语句压缩方法的上述问题,本文的研究内容和创新点如下:(1)针对序列到序列模型领域适应性差的问题,本文采用迁移学习的概念框架,提出三种与语句压缩相关的辅助任务,构建神经网络来提高序列到序列模型的领域适应性能。实验结果表明,三种辅助任务对语句压缩的领域适应能力都有提高,能够有效提高语句压缩模型的领域适应能力。(2)针对神经网络模型需要数据规模大、领域泛化能力差的问题,提出整合长短期记忆网络和整数线性规划并融合句法特征的语句压缩模型。当前已有工作的神经网络模型是一个完全词汇化的模型,并没有使用到更加具有泛化能力的句法结构特征。本文通过将词性和依存句法类型加入到词向量中,并且借鉴不依赖标记语料的整数线性规划方法,在完成神经网络模型的训练之后,通过使用整数线性规划求全局最优解来获得更好的压缩结果。实验结果表明该方法能够极大减少对标记语料的需求并提高模型的领域泛化能力。(3)针对基于整数线性规划模型的时间复杂度高的问题,提出使用深度强化学习对语句压缩任务进行建模。抽取式设定下的语句压缩可以被看成是序列决策的任务:每一步根据当前的句子状态决定要删除的词。在不依赖标记语料的前提下,本文使用深度强化学习技术对语句压缩任务进行建模。实验结果表明,深度强化学习方法比整数线性规划方法在时间性能上有了极大的提高,在语句压缩性能上也与全局最优的整数线性规划方法取得了相似的效果。