基于神经网络的复述生成方法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:w5423112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是指同一语言内语义相同的不同表达形式,同一意思不同的人会有不同的表达,这反映了自然语言的灵活多样性,但却成为自然语言处理的瓶颈。为解决这一瓶颈问题,复述生成关注同一语义下不同表达形式之间的转换,旨在将给定的句子转换成多个语义相同的不同句子,可提高自然语言生成模型的鲁棒性,被广泛应用于机器翻译、自动问答、文本文摘等自然语言处理任务。目前复述生成研究面临以下三个问题:(1)基于编码-解码神经网络框架的复述生成方法存在未登录词无法生成、低频词生成不准确以及词汇重复生成等问题;(2)复述平行语料的有限规模限制了编码器的语义表示学习能力,成为性能提升的阻碍;(3)汉语复述语料十分匮乏,导致难以开展汉语复述生成的研究。本文针对现有基于神经网络复述生成方法存在的问题,借鉴多种典型神经网络模型的优势,引入注意力机制、复制机制、覆盖机制和多任务学习框架;利用自然语言处理技术构建汉语复述平行语料,并在构建的语料上开展汉语复述生成研究。本文的主要研究内容和贡献包括以下三个方面。(1)设计实现多机制融合的神经网络复述生成模型。已有复述生成模型中低频词和未登录词生成不准确,导致信息严重缺失;在解码时未能考虑历史决策信息,导致相同词汇反复出现。对此,我们在已有模型中引入复制机制和覆盖机制,实现多机制融合的神经网络复述生成模型。本文分别在公开数据集Quora和MSCOCO上训练模型,进行各机制贡献度的评测。实验结果显示,与基线模型相比,本文的模型在Quora上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别提高4.18%、4.25%、4.08%和3.19%,在解决未登录词、低频词以及词汇重复问题上效果显著,验证了多机制融合的复述生成模型的有效性。(2)提出联合自编码任务的神经网络复述生成模型。复述平行语料的有限规模限制了已有模型的语义表示学习能力,导致复述句的生成质量不高。对此,我们在多任务学习框架中联合复述生成任务和自编码任务,两个任务共享一个编码器学习语义表示,从而增强编码器的语义表示学习能力。本文分别利用Quora和MSCOCO训练模型,将上述多机制融合模型作为基线模型,进行对比评测。实验结果显示,与基线模型相比,联合自编码任务的模型在Quora数据集上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别提高1.32%、2.04%、1.12%和0.82%,验证了该模型的有效性。(3)提出基于多翻译引擎的汉语复述平行语料构建方法。汉语复述语料十分匮乏,阻碍了汉语复述研究的开展。考虑到英语具有丰富的复述资源,我们利用成熟的机器翻译技术提出基于多翻译引擎的汉语复述语料构建方法,首次构建得到260k的汉语复述平行语料。在此基础上,我们开展汉语复述现象的研究,总结出13种汉语复述现象,其中有3种属于汉语独有,说明汉语复述研究的特殊意义。随后我们利用构建的汉语复述语料以及上述神经网络模型,得到汉语复述生成模型;评测结果显示在多参考复述评测集上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别达到53.59%、27.03%、62.23%和37.18%,表明本文提出的复述语料构建方法对汉语复述生成研究的推进具有一定意义,同时再一次证明了本文提出的复述生成神经网络模型的有效性。针对已有复述生成模型的缺陷,本文设计实现多机制融合的神经网络复述生成模型解决了未登录词、低频词和词汇重复的问题;提出联合自编码任务的复述生成模型提高了模型语义表示学习能力;构建大规模汉语复述平行语料,开展汉语复述现象和汉语复述生成研究;并在国际公开数据集上开展对比评测,验证了本文所提模型和方法的有效性。
其他文献
目的探究幽门螺杆菌(Hp)感染与肝硬化患者上消化道出血及肝性脑病(HE)之间的关系。方法回顾性分析2016年1月至2018年12月在澄城县医院治疗的350例肝硬化患者的临床资料,所有
本报告是一篇基于对美国著名黑人歌手鲍比·布朗的自传《每一小步》的翻译实践所写的翻译实践报告。译者节选第一章内容,取一万字左右英文翻译进行实践讨论。鲍比·布朗通过
随着我国全面深化改革不断推进以及保险业“新国十条”的颁布,给保险业带来了重大的发展机遇,但国内保险经营主体普遍存在资本实力不足、产品创新能力薄弱、经验管理水平有待
本文是英国著名自传小说《我的家人和其他动物》(My Family and Other Anjmals)的翻译实践报告,报告涉及小说的前两章内容。本书作者是英国著名自然学家杰拉德·德雷尔的自传
本翻译实践报告的翻译实践文本取自美国著名神经外科医生保罗·卡拉尼什所著的回忆录自传小说《当呼吸化作空气》。保罗在该书中讲述了他的童年成长经历、他的医学梦想以及他
关于微博这一社交平台的研究一直中文情感分析以及与图片相关的文本生成领域的一个热门研究方向,是中文分词,中文文本情感分析、机器翻译以及Image Caption等技术的难点。本
《人间采蜜记:李银河自传》是一本传记文学作品。本书共包含二十五章,著名社会学家李银河回顾了她六十三年生命中所采撷到的精华。在本书中,你将看到作者不畏凡俗的勇气,看她
人力资本梯度升级是在人力资本发展的过程中,人力资本由低水平向高水平逐渐升级跃迁最终实现高水平人力资本主导的局面,强调人力资本升级动态变化的过程,亦可称为人力资本高
城市公园绿化树种的选择需要观测数据的支持,毛白杨、垂柳、白蜡是北京最常见的主要树种,因此夏季晴天在北京市海淀公园林地使用便携式光合作用测量系统LI-6400观测自然光照
介绍了叶片泵汽蚀破坏的情况以及预测方法,提出汽蚀破坏速度和泵用材料失重量的表达式,列举了算例,为进一步研究叶片泵汽蚀破坏提供了有价值的资料.