【摘 要】
:
随着互联网新闻资讯数量的急剧增长,用户常常会面临巨大的阅读障碍,难以及时且准确地知悉新闻资讯的主要内容。在此背景下,为了满足用户快速获取新闻概要的需求,对大规模新闻资讯进行智能化概述,开展文本自动摘要技术的研究尤为必要。本文以大规模新闻数据集为研究语料,以增强生成摘要包含的主题语义信息为主线,分别开展了抽取式自动摘要、生成式自动摘要以及生成式模型训练优化等方面的改进研究工作,最终采用“先抽取,再生
论文部分内容阅读
随着互联网新闻资讯数量的急剧增长,用户常常会面临巨大的阅读障碍,难以及时且准确地知悉新闻资讯的主要内容。在此背景下,为了满足用户快速获取新闻概要的需求,对大规模新闻资讯进行智能化概述,开展文本自动摘要技术的研究尤为必要。本文以大规模新闻数据集为研究语料,以增强生成摘要包含的主题语义信息为主线,分别开展了抽取式自动摘要、生成式自动摘要以及生成式模型训练优化等方面的改进研究工作,最终采用“先抽取,再生成”的联合式的方法,构建文本自动摘要模型,本文主要研究工作如下:(1)融合主题特征的抽取式自动摘要方法研究。为了抽取更能反映文本主旨信息的摘要句,首先利用LDA主题模型对文本主题特征进行挖掘,定义了主题重要度以衡量主题特征对句子重要度的影响,然后结合句间相似度和统计特征改进了Text Rank算法中图结构模型边权重的度量方式,提出了融合主题特征后多维度特征度量的文本自动摘要算法MDSR(Muti-Dimension Summarization Rank),最终实现源文本的语义压缩,为后续生成式模型提供了表义能力更强的输入文本。实验结果显示,提出的MDSR算法可以有效提高摘要抽取的质量。(2)基于多维度注意力机制的生成式自动摘要方法研究。为了加强Seq2Seq模型在解码过程中对源文本主题信息和语义结构的关注,在综合考虑主题特征、源文本层次结构以及解码器已输出词项信息的基础上,构建了融合主题语义信息的多维度注意力机制;采用“先抽取,再生成”的联合式的方法,将抽取式方法所得到的源文本语义压缩结果作为生成式模型输入,并采用Bert模型进行词语的向量化表示,最终构建了基于多维度注意力机制的生成式文本自动摘要模型EDM-MDAM(Encoder-Decoder Model with Muti-Dimension Attention Mechanism)。实验结果显示,构建的EDM-MDAM模型可以有效提升生成摘要的评测结果。(3)基于语义相关性损失函数的生成式模型训练优化。为了增强生成摘要和源文本之间的语义关联程度,分别从主题分布相关性和语义向量相关性的角度,对传统生成式模型损失函数的定义方式进行了改进优化,最终设计了基于语义相关性的损失函数,使模型训练更导向于对源文本进行整体的语义理解。实验结果显示,改进优化后的损失函数对模型训练具有积极的影响。
其他文献
2020年新冠肺炎(Corona Virus Disease 2019,COVID-19)给全世界经济生活带来了深刻的影响,当前存在大量非结构化COVID-19文献文本资源,利用实体关系抽取技术构建COVID-19知识图谱,对强化COVID-19的认知至关重要。由于目前缺少COVID-19领域标注语料,难以利用现有技术获取文本中的相关知识。当前大多数实体关系抽取技术主要基于循环神经网络来对单句文本
随着科技的发展和网络医疗咨询的逐步兴起,越来越多的用户通过在线服务平台进行医疗咨询和寻求帮助。目前这些平台在回答用户问题时,一般通过搜索引擎进行问题检索,这种方式主要依赖于关键词语信息匹配,同时受用户对医学专业词汇表述的影响,通常不能充分理解用户语义,难以获取准确的内容。为了解决传统在线医疗服务平台存在的这些问题,医疗问答系统通过医疗知识库来匹配用户描述的病情,直接给出相关解决方案。但由于目前医疗
各种社交媒体、电子商务平台等互联网应用的普及给人们的生活带来巨大便利的同时,也方便了人们对某些事物发表自己的主观看法,这些带有丰富个人情感和主观倾向性的内容蕴含着巨大的商业价值和社会价值,因此情感分析一直都是研究者们重点关注的热点问题之一。以往的研究工作主要针对句子级和篇章级情感分析任务,此类研究的目的是判断一个句子或一篇文档的情感倾向性。而方面级情感分析任务的目的是分析文本中不同方面的情感倾向性
传统的可重构架构,例如现场可编程门阵列(FPGA)面临存储资源稀缺和路由开销较大等问题,难以满足未来数据密集型应用的需求。忆阻器能够在器件级实现存储计算一体化,基于忆阻器实现的存算互换架构有望解决上述问题。存算互换架构基于忆阻器交叉阵列结构实现,可将逻辑、互连和内存无缝地合并在一起,从而提供了更大的硬件资源灵活性,可以灵活地处理数据密集型或计算密集型应用程序,目前已得到了广泛的关注。虽然新型存算互
《〈论语〉十二章》体现了孔子的学习观和修身思想。本文以义务教育阶段语文核心素养为依据,借助群文阅读的理念,对该篇课文进行教学设计,共分为五个部分。第一部分阐释本次群文阅读的价值与可行性,第二部分是议题的确立,第三部分是教学内容的选择,第四部分是教学设计,第五部分是教学思考,希望给一线教学提供帮助。
随着信息技术革命的日益推进,数字化转型成为中小物流公司在未来生存发展的必然需要。本研究集中探讨了数字鸿沟情景下中小企业数字化转型的“不敢、不会、不能转”的数字鸿沟问题,从数字鸿沟视角为中小企业数字化转型提供了实现路径,有助于中小企业更加深刻地剖析自身存在的问题。
本文以2012—2020年中国A股上市企业为研究样本,实证分析不同生命周期阶段的数字化转型对企业价值的影响。研究结果表明:(1)随着生命周期的推移,数字化转型与企业价值之间呈现先上升后下降的倒U型关系,且数字化转型不能显著提高衰退期企业价值;(2)数字化转型通过技术创新和业务创新影响成熟期企业价值,且数字化转型仅通过技术创新影响成长期企业价值;(3)数字化转型对国有企业和高市场化地区企业价值提升的
随着计算机的飞速进步和互联网的迅速扩张,人工智能、大数据和5G技术在2015年到2020年期间取得了巨大的进展。伴随着这些高科技的发展,用户在各种计算机终端设备上,访问的信息形式发生了由文字到音频、音频到图像、图像到视频的巨大转变。在图像的采集和传输过程中很容易会受到多种不同原因的影响而使得图像的质量变差的情况。为了缓解这些因素对图像的影响,更加先进的图像去噪技术迫切需要被提出。本文以图像去噪为基
随着近年来生物测序技术的迅速发展,基因数据井喷式增长,测序在生物信息学研究中扮演了重要的角色。在育种实践中,由于样本规模较大,高密度的测序数据获取成本较高,通常会采用高低密度测序混合的方式来获取基因型数据,分析计算时再利用基因型填充工具将低密度数据填充为高密度数据以获得更准确的选种选配结果。基因型填充主要是利用缺失位点与附近位点的遗传连锁不平衡特性来推断缺失值。传统填充方法大多是基于隐马尔可夫模型
近年来少样本学习受到了很多关注,它旨在从少量有标签训练数据中实现快速学习和泛化。少样本图像分类作为少样本学习的主要分支,它的目标是在每个类只提供单个或几个训练样本(支持样本)时学习一个分类器以识别测试样本(查询样本)的类别。在少样本学习中应用元学习的思想可以帮助模型在相同类型任务之间迁移有用的元知识,一定程度上减轻样本量少带来的问题。但是少量样本带来的信息十分有限仍不足以充分表示一个类别。在元学习