基于深度学习的自动生成文本摘要及其评估的研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:qq12433184000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,信息的爆炸式增长,文本信息是人们获取信息的主要来源,近年来自然语言处理技术受到越来越多研究者的重视,自动生成文本摘要技术是该技术的一个重要研究分支。本文针对自动生成文本摘要技术进行研究,并将句子语义相似度匹配技术和摘要评价技术作为摘要技术的支持性研究。首先通过改进传统注意力机制和损失函数,提出了一个基于语义相似注意力机制的摘要模型,将原文与生成摘要两者的语义特征向量余弦相似距离与条件概率损失函数相融合共同反馈至注意力机制,使生成的摘要更贴近原文语义。其次,通过研究语义相似性在摘要技术和摘要评估上的应用,提出了一种基于最优特征的句子语义相似匹配模型,用于判断两条句子语义相似程度。最后,在语义相似匹配模型的基础上通过结合Rouge摘要评估算法,提出了一种基于最优融合分数的摘要评估方法,使评估结果更加接近于人工评价。本文主要贡献如下:1.针对当前摘要模型难以获取与原文语义相关的上下文信息,导致生成摘要不准确的问题。本章提出了一种基于语义相似注意力机制的摘要模型。首先,建立了一个语义相似注意力机制,通过计算编码器和解码器隐藏层状态之间的余弦距离,同时将该距离引入注意力机制中辅助该机制获取与原文语义相似度较高的上下文语义信息。其次,提出了一种学习语义相似特征的融合损失方法,将余弦距离与原损失函数加权融合反馈至语义相似注意力机制,进而迭代更新上下文信息。最后,解码器利用最贴近原文的语义信息生成准确性更高的摘要。实验结果表明,该模型在Rouge-1和Rouge-2评价分数上有0.65%和0.17%的提高。2.本章设计了一个基于择优选择机制的语义匹配模型,用于句子相似性识别的最优特征匹配以提高准确度。相较于没有使用特征择优机制的模型,该模型使用最贴近原文语义的关键特征进行匹配,从而获得更高的匹配性。本章提出了一种改进的语义信息选择机制,通过计算词语在句子中的语义分配概率挑选尽可能接近原文语义的一个候选特征。同时,设计了一种新的注意力焦点机制,通过迭代更新信息权重得到另一个可能影响匹配准确性的候选特征,然后利用上下文向量和两个候选特征设计了一种择优算法计算挑选系数,进而从候选特征中选择最优特征进行语义匹配。实验结果表明,该模型在英文和中文数据集上匹配准确率有1.86%和0.86%的显著提升,优于目前表现较好的匹配模型。3.针对Rouge评估方法未考虑原文与生成摘要之间语义相关,仅计算两者之间重合单元的分数,导致评估不合理的问题,本章设计了一种基于最优融合分数的摘要评估方法。首先,提出了一个带有选择门的句子语义相似匹配模型,通过计算词语概率分布获得原文与生成文本两者的关键特征,使用该特征进行句子相似度匹配,并得到语义相似度得分。其次,使用Rouge-1、Rouge-2和Rouge-L方法分别计算原文和生成文本之间重叠单元的得分。最后,通过计算语义相似分数和Rouge分数的置信距离矩阵和相关矩阵得到两者的最佳融合候选结果,进而使用最大值原理得到最优融合数据。实验表明,本章方法使用中文数据集和英文数据集在不同模型生成的摘要上进行评价都接近人工评价标准。综上所述,这三方面的研究内容是一个完整的体系,基于语义相似注意力机制的摘要模型是核心,一种基于最优融合分数的摘要评估方法是验证,而基于择优选择机制的句子语义相似匹配模型是两者的重要内容。
其他文献
随着社会科学技术的发展,制造业对检测技术的要求逐渐提高。传统的人工手动零件尺寸测量由于受到主观判断和测量工具的影响,不但检测效率低,而且抗干扰性差,通过视觉测量技术对零件进行非接触式检测逐渐受到人们的青睐,其在尺寸测量环节上有着许多人工测量无法比拟的优势,如高精度、高效率、自动化等。而基于亚像素的视觉测量技术能够在不提高系统硬件分辨率的情况下,得到比传统像素级检测更优的测量结果,减少了工业的成本。
信息技术和互联网行业的发展正逐步改变着人们的生活方式,各大平台纷纷推出智能解决方案,因此衍生出来的数据庞大且丰富,其中图数据在应用中非常广泛,如知识图谱,社交网络等,但这些图数据通常结构复杂,规模庞大,对用户的信息获取形成了挑战,传统的推荐算法虽然能缓解上述困难,但其不能有效的处理图数据信息,不能很好的捕获用户的个性化偏好,且会导致数据稀疏和冷启动问题。针对以上问题,本文采用基于图表示学习的个性化
随着互联网普及率的增加和网民规模的扩大,网络应用的种类和流量与日俱增,导致网络效率降低、带宽消耗加剧、用户体验变差。在这种情况下,如何有效的缓解网络数据拥塞是提升网络性能的重点。大象流作为影响网络性能的主要数据流量类型,数据量大,链路带宽消耗高,对大象流进行分析建模以便及时侦测是当前计算机网络和本研究的重点。当前大多数的数据中心采用基于阈值的简单模型描述大象流,进而实现大象流的侦测;一些大象流侦测
随着《中国制造2025》全面推进,三维立体视觉技术作为计算机视觉中最核心技术之一,在智能制造应用中扮演者重要的角色。例如利用三维立体成像技术实现快速、高精度和数字化在线测量,引导机器人实现智能抓取和操作。结构光投影轮廓测量技术是三维立体成像技术的重要研究方向之一。在工业生产过程中,三维重建技术会把物体的表面每一点三维坐标数字化、点云化,就能够在三维立体空间中引导机器人抓取、测量等。本文从环境中噪声
网络规模增加,接入设备多样化增加了网络管理的复杂性。传统的网络设备耦合了控制和转发功能,但由于品牌和种类的多样化,缺乏统一、开放的管理接口,维护网络全局视图的成本高,实现网络性能的全局管理和资源优化难度大。软件定义网络(Software Defined Network,SDN)通过分层的网络架构、集中控制、标准化开放接口实现了控制和转发功能的解耦,降低了网络全局视图维护的成本,解决了传统网络在性能
光刻机是制造集成电路的核心设备,随着集成电路向先进制程不断发展,集成电路制造业对光刻机套刻精度要求越来越高。运动台定位精度、重复性决定了光刻机的套刻精度,目前对运动台定位测量的工具只有激光干涉仪和光栅尺两种,光栅尺环境鲁棒性相对较好。现阶段我国对光栅尺相位信号处理系统研究较为匮乏,尤其缺乏能够应用于28 nm浸没式光刻机的高分辨力光栅尺相位信号处理技术和设备。本文针对光栅尺相位信号的第一类非线性误
自1986年由A.Ashkin等人首次完成光镊实验以来,光镊技术已广泛应用于生物学、化学、胶体科学和物理学等领域。特别是在生物学中,它被应用于操纵细胞、细胞器、病毒、细菌和DNA分子,为研究这些基本生命单位和了解其生物学功能提供了有力的工具。光纤光镊继承了光纤灵活、体积小、结构紧凑的优点,可以通过人体的天然孔口到达病变组织,从而非常好的应用于体内医疗。在光纤光镊的研究中,提高可操作性以实现多维度操
近年来,随着先进的科学和技术的迅猛发展和智能家居设备的日渐普及,智能电视逐渐成为家庭物联网的控制中枢。然而在日常使用中,传统的遥控器操控具有一定的依赖性和局限性。手势作为一种非常契合人们在日常生活中各种交流习惯的一种人机交互方式具有自然、舒适等特点,相较于借助穿戴设备,通过摄像机进行手势操作更加符合人们的日常使用需求,因此基于视觉的动态手势识别的人机交互系统对于智能电视具有很高的研究价值。目前,基
高脂血症是导致多种心脑血管类型疾病的重要诱因且存在很多因此产生的并发症,由于其隐匿性导致多数疾病并无典型症状,极易耽误最有效的防治时间,对人们身体的生理机能产生了巨大的危害。其中,胆固醇浓度过高表现为高胆固醇血症,进而导致血脂水平整体异常。因此,胆固醇浓度值是检测高脂血症很重要的指标。目前常用的血脂检测方法多为医院生化检测测得,不仅给被测对象造成疼痛的感觉,而且还增加了针刺部位的感染风险,且实时性
微纳结构往往赋予材料/器件独特的力学、物理及化学性能,其在光学领域的研究可以分为运用光学原理对器件表面的微纳结构实现非接触无损检测以及研究微纳结构在如何影响器件的光学性能两方面。对于微纳结构的非接触光学表征包括粗糙度检测以及纹理方向检测,通过结合纵向的粗糙度信息以及横向的纹理信息即可以实现对微纳结构的三维表征。基于光学的非接触式粗糙度检测方法包括白光干涉法、共聚焦显微镜测量法、散射法等。由于散射法