基于深度学习的文本复述系统的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sun11023024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的不断发展,自然语言处理技术逐渐被应用到各个领域,如信息抽取、机器翻译、问答系统等。其中,文本复述任务使用基于深度学习的NLP技术,可以为生成出来的文本赋予多样性和创造性。其任务目标是让机器使用不同的措辞、表达,将原先的文本复述出来,该过程需要最大程度地保留原文本中的核心语义,并且生成语句的通顺度要尽可能高。本文提出了一种基于深度学习的文本复述系统,可以学习数据样本之间的多样性及语句流畅度,在最大限度保留原句语义的情况下复述出通顺的文本。本文的主要贡献和创新如下:首先,本文提出了一种自动化构建平行复述资源的框架,根据互联网中的大规模无监督语料,该框架可自动生成大规模、高质量的平行复述句子对,不限语种,在一定程度上缓解了文本复述领域缺乏公开标注的数据集的问题。此外,本文提出了模板与槽位词的概念,旨在对复述句子对进行匹配时排除实体信息对句子整体语义表示的影响,使句子对专注于模板之间的复述现象。其次,本文提出了含有门控注意力机制的双编码器模型,使用两个编码器分别对模板和槽位词进行编码,门控注意力机制可以控制解码器中模板和槽位词的信息比例,让模型自适应地习得如何将模板和槽位词自然地融合到一起,进而提升生成复述文本的流畅度和复述程度。再次,本文还联合外部知识图谱特征对复述文本的生成方向进行引导,使得生成的复述文本具有了一定的可控性,进而丰富了文本复述系统的应用场景,该项工作对其他自然语言生成任务也有借鉴意义。最后,本文利用上述数据与模型,实现了一个文本复述系统,能够对互联网中的评论进行复述改写,更好地展示文本复述技术在现实世界中的应用。
其他文献
自“十三五”以来,我国经济发展进入新常态,稳步推进供给侧结构性改革、稳妥化解过剩产能、落实“三去一降一补”、促进产业架构优化升级,成为行业的共识。对资源型企业而言,结构性产能过剩和行业无序竞争问题更突出。本文主要采用案例分析法,通过选取资源型企业典型并购案例:佰利联并购龙蟒钛业,并购完成后成为在规模、技术、出口水平等方面成为国内具有绝对优势地位的龙头企业的案例。从资源型企业的并购行为开展实证分析,
在半导体和电子产品的制造过程中,点胶操作是芯片生产封装过程中的一项关键技术,已被广泛用于检测与装配的自动化生产过程中。而点胶情况的好坏直接影响到了芯片的生产,胶量过少可能造成芯片与封装材料之间互连不足,从而引起器件性能差异或提前失效,胶量过多不仅会浪费胶水,而且胶水过多造成的固化缓慢同样会引起芯片贴装质量的波动。因此,本文以芯片为研究对象,提出了一种基于机器视觉的芯片点胶情况的检测系统,主要完成的
传统捡拾机器人通常采用集中式控制系统,这种集中式控制系统的实时性和稳定性较差,其在一定程度上阻碍了机器人技术的发展与变革。为此,本文设计了一种以CAN(Controller Area Network)总线为核心的捡拾机器人分布式控制系统。为了提高捡拾机器人的控制精度,创新性地提出了机械手关节的正交模糊PID控制方法;为了减少控制系统的信息延时,创新性地提出了基于改进动态优先权算法的CAN总线通信方
本文主要研究了技术进步下的耐用品引入与定价策略问题。考虑一家在两个时期向策略型消费者创新、生产和销售耐用品的企业。在第一个时期,企业提供低创新的产品。在这个时期,企业持续创新产品,并在第二期向消费者提供高创新水平的产品。本文中,我们考虑了三种情况下的企业产品引入与定价策略,分别是(1)基于消费者策略行为的企业引均衡决策;(2)考虑产品折旧的企业均衡决策;和(3)考虑价值折旧的企业均衡决策。分别讨论
随着“全面二孩”政策的实施,加之社会托幼制度的不健全,越来越多的中老年人承担了照料孙子女的责任。根据老龄科研中心的调查数据显示,有66.47%的中老年人选择帮助子女照看孙辈,而繁重的照料任务会直接影响中老年人的健康状况。同时随着我国人口老龄化进程持续加深,老年人口的数量不断增加,迅速扩大的中老年群体以及生活方式变化带来的挑战,不仅直接影响老年人的生活质量和幸福指数,还关系到《“健康中国2030”规
近些年,利用稀疏化的方法对信号进行处理成为一个热门的研究内容。图像作为一种特殊的二维信号,在实际生活中应用十分广泛。在图像的生成与传输中,需要考虑图像的传输成本以及可能被破坏等情况,因此,对图像的重构以及修复就变得有意义。本文基于这样的背景,对基于L0范数的图像重构算法以及基于全变差正则化的图像修复理论进行研究,分别提出了新的算法。首先,针对压缩感知中SL0系列算法里的平滑函数的“陡峭性”能够影响
我国作为工农业及医疗用品的生产与使用大国,氯酚及抗生素的大量应用对水体环境造成了严重危害。这些污染物的半衰期长,且自身持久性高,通过在生态环境中的累积可对人体造成
近来,基于位置的社交网络(LBSNs)在人们的日常生活中得到了广泛应用。人们在出行时往往会利用美团、大众点评等应用选择出行地点,并在微博、微信等平台分享自己的访问地点。这也产生了对于兴趣地点推荐系统的大量需求。现有的研究主要集中在通过社交联系、地理距离等附加信息来提高兴趣地点推荐系统的性能上,未能很好地将多种复杂的因素结合起来。本文基于Weeplaces与Foursquare两个基于位置的社交网络
根据世界卫生组织的调查发现,糖尿病已成为仅次于心血管疾病和肿瘤疾病的第三大杀手。糖尿病主要通过有创进行检测诊断,检测过程易给患者带来生理及心理上的痛苦,且伤口会因保护措施不到位而受到感染。无创血糖测量技术因具有无创伤、无感染和可实时监控等特点而成为近年来热门的研究课题。基于能量代谢守恒法研制的血糖仪可以用于糖尿病的检测识别,该类血糖仪有操作简单和无创伤等特点,能够实现对患有糖尿病人群的血糖水平进行
本文以医药连锁店凤林连锁药店为研究对象,通过研究发现其在营销状况中存在的问题,为其制定更有针对性的营销策略。因此,本文运用国内外的市场营销相关理论对药店的市场环境进行分析,提出了适合本连锁药店市场环境的营销战略,在战略的指导下提出了若干有利于其树立品牌形象的营销策略。随着医药零售行业激烈的多业态竞争,医药零售品同质化严重,如何进一步扩大市场,扩大市场份额,形成凤林连锁药店品牌优势,是亟需解决的问题