基于深度学习的自动文本摘要方法的研究

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:shentong0312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上出现了许多的信息资源,这些资源给人们的生活带来极大便利,同时也给人们带来很大困扰,如何从数以万计的复杂文本资源中快速获得有效信息,是高效利用网络资源的关键。自动文本摘要是自然语言处理领域的一项重要任务,它广泛应用于新闻摘要等领域,应用自动文本摘要技术对文本资源进行信息压缩和抽取,是获取文本资源关键信息的有效方法之一。自动文本摘要方法主要有抽取式摘要和生成式摘要两种。传统的抽取式摘要方法主要应用无监督抽取式方法,没有对语料进行训练学习的过程。这些方法大多是基于统计层面的,考虑的维度较为单一。深度学习方法在自然语言处理领域发挥着越来越重要的作用,神经网络能够深度挖掘文本的特征和语义关联,本文将深度学习方法运用到文本摘要任务中,首先从抽取式摘要方法入手,充分考虑词、句和段之间的特征,然后改进现有的生成式摘要方法,最后将预训练语言模型运用在生成式文本摘要任务中,进一步提升摘要生成效果。具体内容如下:1)提出了一种基于度量学习的抽取式文本摘要模型。传统方法在处理文本摘要任务时没有充分利用到参考摘要信息,为了利用充分利用标签信息,引入度量学习概念结合深度学习网络中的Transformer模型和双向门控机制单元在公开数据集上进行训练,使用Transformer模型获取句子级的文本特征信息,转换成句子向量,再将得到的句子向量输入到双向门控机制单元中,得到文档向量,最后利用度量学习,计算文档向量和句子向量之间的相似度,抽取出摘要句。在英文摘要CNN/Daily Mail数据集上的实验表明,提出模型的Rouge分数在Rouge-2、Rouge-L上比基线模型分别高出1.29%和2.43%,该算法能够增强模型辨摘要句与非摘要句的能力,有效改善了抽取式摘要方法的性能。2)提出了一种基于残差卷积门控网络的生成式文本摘要模型。由于抽取式摘要模型会过度关注那些在语义上较为重要的句子,这会使得算法在抽取句子时容易重复抽取,导致摘要句语义冗余。为了解决这一问题,探索了生成式摘要方法,模型设置了一个基于残差网络的卷积门控单元来对源上下文进行全局编码。各种参数在卷积神经网络的门中是彼此公开且共享的,设置了一个卷积门控机制,这个门过滤了由Encoder的输出结果,在每个时间步中对语义表示细化,并且能够将上下文的语义考虑进去,这使得Encoder能够全面理解并考虑上下文的全局信息,增强了单词和上下文的连接,使模型不再只关注局部重要信息,从而使抽取的摘要句能够更加全面地表示文档信息。在LCSTS数据集上的实验表明,提出模型的Rouge分数在Rouge-1、Rouge-2、Rouge-L上比基线模型平均高出3个百分点。该算法能够使模型在关注重要信息的同时,也关注全局信息,减少了信息冗余,使生成的摘要表达的信息更加全面。3)提出了一种基于正则化语义损失的生成式文本摘要模型。预训练模型越来越受到关注,为了进一步探索更有效的生成式摘要模型,利用预训练模型帮助更好地捕捉文档语义。首先,模型构建在生成式的预训练语言模型BART上,通过对每个文档进行复制后输入模型,之后输出两个不同的分布,通过负对数似然损失函数进行训练。然后提出一种基于Dropout的正则化语义损失函数,对两个分布进行最大化余弦相似度度量,使两个分布尽可能地相近,更新模型参数。最后,通过集束搜索进行解码,生成摘要。在CNN/Daily Mail数据集上的实验表明,提出模型的Rouge分数比BART预训练模型在Rouge-1,Rouge-2,Rouge-L均有所提升,分别提升了1.80%,0.88%,1.81%。利用预训练模型的优势,该算法又进一步提升了生成式文本摘要方法的效果。
其他文献
全世界人口的增长导致化石燃料被不断的开采和消耗,从而引发了环境污染等问题。所以亟需利用可再生能源来填补能源缺口。像风能、水能和潮汐能这样的清洁能源可以被大规模应用,但这些能源会受到地理或气候的影响。因此,需要开发出成本低、安全性高且环境友好的储能设备来克服这些条件的限制。近些年,锂离子电池(LIBs)因其能量密度高、平均输出电压高(约3.6V)和工作温度范围宽等优势被广泛应用于大型的储能设备中。但
学位
随着知识图谱的发展,基于知识图谱的问答逐渐成为研究热点之一,尤其在一些特定领域知识图谱出现之后,对于问答的方法和效果提出了新的要求。用户期望在基于特定领域知识图谱进行提问时,可以提出与领域有关的常识性问题,也称为概念性问题,并且系统可以回答与图像有关的问题,也称为多模态问题。因此本文设计了问答方法,能够同时解决由概念性问题和多模态问题组成的混合问题,并且返回混合问题的图像答案。首先构建了一个领域多
学位
随着互联网的高速发展,各种各样的事实、常识等知识日益增长。实体关系抽取作为抽取这些知识的核心技术,吸引了越来越多的研究者关注。现阶段实体关系抽取已经用于构建知识图谱、自动问答等诸多场景。然而,目前实体关系抽取技术大多在封闭域的数据上进行研究,并且在现实场景中关系事实的表达方式更加多样,实体关系可能是随时间而不断变化的,且新关系数量仍在不断增长。现有的方法很难解决开放领域下所面临的标注样本少、标注成
学位
钛合金具有良好的机械性能和化学稳定性被广泛用于航空航天、化工生产以及生物医疗等领域。其中,由于良好的生物相容性Ti-6Al-4V(TC4)成为了当前的医学植入材料的主流,但是其抗疲劳性能差以及会释放其他的微量元素(Al、V)从而引起人体神经损伤和造成功能性细胞中毒掣肘了钛合金在生物医疗方面作为植入材料的发展。本文主要通过利用微弧氧化以及电泳沉积手段对TC4合金表面改性,重点评估了改性后膜层的形貌、
学位
TiAl合金是集高强度、高弹性模量、高比强度、良好的抗氧化,抗蠕变和抗腐蚀性能等优点于一体的高温合金。然而该合金仍存在室温塑性差和高温强度低两大亟待解决的难题,目前TiAl合金的优化手段还尚不能达到塑性和强度共同提高的祈愿。在国际上,关于TiAl合金的更新迭代朝着变更微观组织来改善机械性能的方向发展,但是微观组织构型对性能的影响机制还没有被明确的揭示,禁锢了 TiAl合金作为优良的高温合金的发展前
学位
目的 分析国内外创伤性休克研究的发文情况、研究热点及研究趋势,为相关人员开展创伤性休克研究提供参考。方法 在中国知网与Web of Science(WOS)核心合集数据库检索与创伤性休克相关的文献,检索日期均截至2022年10月1日。运用VOSviewer 1.6.18软件进行可视化聚类分析。结果 共检索到中国知网文献2 860篇,WOS数据库文献832篇。WOS数据库与中国知网发文量排名第一的期
期刊
随着5G通信技术的普及,以及数据传输速率的加快,对基站的散热能力提出了挑战。作为基站散热器“首选”材料的Al-Si合金,其导热性能和力学性能很难得到同时改善。因此如何使合金同时具有良好力学性能和优良导热性能来满足应用的需求是研究的关键。目前,对Al-Si合金采用合金化、变质以及热处理等手段的研究主要集中在力学性能的改善上,而对导热性能的研究相对较少。一般来说合金的导热性能依赖于合金元素的分布、第二
学位
高熵合金是由五种或五种以上元素构成且每种元素的摩尔分数介于5%至35%之间的一种新型合金。高熵合金因其特殊的热力学、结晶学、动力学效应,具有许多传统合金不具备的高强度、高耐磨性和高耐腐蚀的性等特点。激光熔覆是一种新型的表面改性、增材制造技术,具有高精密度、可控性强,对基体热影响小,冶金性能好等特点。本文采用激光熔覆技术在ZG25Mn Ni铸钢表面制备了FeCoNi2CrMnV0.5Nbx(x=0、
学位
“日”字形截面商用车防护梁以B700L高强钢为原材料,通过辊弯工艺和绕弯工艺进行制造,其独特的截面形状在保证优良防撞性的同时,还满足了汽车轻量化设计的需求。为达到防护梁的安装要求,需要对防护梁两端做出相应角度的弯曲,但由于高强度钢具有强度高、塑性差等特点,再加上截面形状的复杂性,防护梁在弯曲成形后容易产生截面变形、内壁增厚、外壁减薄甚至破裂等缺陷,影响防护梁的性能。为消除或减轻这些成形缺陷,需要对
学位
铝合金作为轻量化结构的主要材料,以其易回收、低密度、高刚度等优点被广泛应用于高速铁路列车、航空航天和汽车制造等领域。目前,许多传统的铝型材二维拉弯成形制件已不能满足工业市场需求。本文提出一种新型成形加工工艺,即超声辅助多点拉弯成形工艺。超声辅助多点拉弯成形工艺是超声振动成形、拉弯成形、柔性多点制造理念相结合的产物,既减少了传统拉弯模具策划、加工和调制的时间及成本,又可以改善制件的压痕、折痕等局部缺
学位