基于深度学习的新闻文本摘要方法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:saintjob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网新闻越来越多,想要短时高效地在众多文本中找到自己想要的内容,获取需要的信息变得越来越困难,因此文本摘要变得必不可少。抽取式摘要已经取得不错的效果,但抽取的摘要不连贯、可读性差;生成式摘要虽然能生成较为通顺的语句,但极容易偏离主题,生成错误的摘要以及重复的语句。本文将两种摘要模式结合起来,提出混合式的生成方式,另外针对现文本生成摘要中生成摘要不准确、生成词汇较死板以及文本摘要评价不准确等问题,对自动文本摘要技术进行如下改进研究:(1)针对句向量表征未使用上下文获得语义的问题,传统的抽取式摘要主要使用基于特征、图等方式的不涉及到训练的方法,基于循环神经网络的方法也仅是基于单向语义向量。本文使用改进的BERT编码向量,获取上下文语义,从而获得更好地抽取摘要,同时可以为生成方法去除冗余信息,保留关键信息。与传统的抽取摘要相比,ROUGE分数平均提升3.09分。(2)针对摘要新颖性不足、生成速度慢以及未登录词、重复词等问题,主流的生成式方法往往使用混合式的指针生成网络。本文提出了结合Transformer和改进指针生成网络的生成方法,使用自注意力机制更好更快地编码上下文向量,增加摘要选择新词的能力,增加摘要的新颖性。(3)针对现有的摘要评价方法不能很好地评价摘要质量的问题,提出新的评价方法BERT-EVAL,通过经过语义相似度训练过的BERT模型,对产生的两句子向量进行语义相似度计算,从语义角度对参考摘要和生成摘要进行比较。本文通过实验证明了本文模型的有效性,在NLPCC2017中文数据集上ROUGE得分分别提升至39.78%,25.69%,35.15%。针对新提出的摘要评价方法,本文在英文数据集上选取数据,进行人工评价,将人工评价分数分别与ROUGE分数和本文提出的BERT-EVAL分数进行相关系数比较,实验证明后者结果更好,说明评价方法的有效性。
其他文献
由于雷达设备具有不接触性和信号保密性高等特点,使得雷达设备被广泛应用在居家养老、探测、搜救等领域,因此应用环境对雷达信号的处理提出了很高的要求,传统的信号时频滤波和特征提取,需要从时域变换到频域,再反变换到时域,这样的流程不利于并行操作,存在时间的滞后,本文提出了一种基于超宽带雷达的双通道输入跌倒信号检测方法,避开复杂的信号处理过程,只在回波信号时域的通道上做一次快速傅里叶变换和一次奇异值分解,在
学位
随着移动互联网的快速发展,针对社会实事,社交平台上会出现大量的议论,这些议论文本存在数量大、话题多、结构口语化和语义信息不足的特点,特别是一些隐式情感语句,会存在暗讽、反话等语言方式,其情感特征并不明显,这些特点对传统的情感分析方法提出了较大的挑战,实验表明,单纯的文本序列信息无法满足隐式情感分析的需要。本文主要围绕着隐性情感的极性判别任务,在传统的仅仅依靠序列特征进行分类的基础上,通过引入语法结
学位
随着科技的进步,光器件对小型化和集成化的要求越来越高。与传统的光学元件相比,二维的超表面具有独特的电磁响应特性,平面结构意味着制造工艺简单,还可以通过使用不同尺寸、不同形状的结构单元,使用不同的排列方式等,实现对光的强度、相位、波长和偏振等特性的调控。在纳米光学领域,超表面已经受到了人们的广泛关注。通过将纳米颗粒按一定的周期组成阵列,单个粒子的局域共振与周围粒子之间的电磁耦合会产生一种新的集体响应
学位
在我国种植业发展新规划的时代背景下,“果树上山上坡,不与粮争地”的果业发展方针使山地苹果成为苹果产业发展的重要方向。然而,因山地独特的立地条件和气候环境,导致病虫害发生种类和规律不同于其他果区。本文以陕西榆林地区为例,概述了山地苹果主要病虫害发生种类及综合防控技术,为山地苹果安全生产提供技术支撑。
期刊
大数据时代背景下,网络产生的数据爆炸式增长,用户想获取符合个性化需求的数据信息变得十分困难。推荐系统是解决这一问题的有效方案,但是传统的数据存储和计算无法满足对海量数据的处理,所以推荐系统应运行在分布式的环境上。分布式环境部署的Spark使用内存对计算中间结果进行存储,可以快速的执行迭代算法,计算性能优秀,是推荐系统首选的计算框架。推荐算法是推荐系统研究的重点,但传统的ALS推荐算法忽略了经过时间
学位
随着移动互联网的迅速发展,以QQ、微信为代表的社交软件逐渐成为人们日常生活中主要的交流工具,群组聊天则是其中的一种重要功能,产生了海量的群聊数据,话题发现技术可以分析出群聊所涉及的话题,使得用户可以快速获知某个群的热点话题,这对于提升用户体验具有重大意义。主题模型则是实现文本话题发现的一个重要方法,但是传统的LDA主题模型,将其直接应用于群聊文本主题挖掘,会由于群聊短文本稀疏性特征使得主题建模效果
学位
随着自然语言处理技术在中文不同领域中的应用,以及深度学习相关算法的研究发展,利用自然语言处理技术实现对古文的处理与挖掘越发受到关注。古文自动断句标点处理是古文数字化处理的重要环节。面对浩如烟海的古文典籍,实现准确快速地自动化断句与标点,有利于古文语料处理的相关工作的进一步挖掘和研究。本文以纪传体史书文本为古文研究对象,针对Bi-LSTM-CRF基线模型局限于字符粒度处理不适用于纪传体史书文本的问题
学位
本文通过参考抗寒苹果的研究相关文献,重点分析了国内32个苹果品种或砧木的特征和特性,以期为寒地苹果生产提供支持。
期刊
由于无人机和卫星图像视点的剧烈变化,导致视觉外观差异巨大,现有跨视角图像匹配方法性能难以提升,致使无人机视觉定位研究依然面临挑战。本论文在研究大量国内外跨视角图像匹配算法的基础上,分析已有模型不足,从像素级、特征级、决策级三个层面出发进行了改进,主要研究工作如下:(1)针对无人机-卫星视图间空间域差过大与空间布局信息的忽略问题,从像素级层面出发,结合手工特征和深度特征,提出了一种基于视角转换的前置
学位
计算阶段、认知阶段和感知阶段是人工智能通常分为的三个阶段。计算阶段通常表现为计算机进行正常的数据运算和存储。人工智能在认知阶段的表现为计算机能够接收来自外界的信号,在这个阶段主要的研究方向有文字识别、图像识别和语音识别等。感知阶段使现阶段研究重点,该阶段不仅包含了前面两个阶段的能力,还在此基础上能够进行数据的理解、数据的判断、新数据的生成、数据的实际运用等。其中最为核心的部分就是计算机的理解能力。
学位