面向查询的新闻多文档抽取式摘要方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:roc59516663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向查询的新闻多文档自动摘要技术可以从根据查询返回的相关新闻报道文档集合中,快速地抽取出能在一定程度上满足用户查询信息需求的摘要,提高对信息的获取和利用效率,是自然语言处理领域中较为重要的研究方向之一。针对当前面向查询的多文档抽取式摘要方法研究中存在的不足,同时结合新闻文本具有的新闻时序特征,本文进行了如下研究工作:1.基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法针对已有相关摘要方法的研究中大都是分开计算句子的内容显著性和查询相关性,且对特征向量表示的建模不充分的问题,提出一种基于层级Bi GRU+Attention的面向查询的新闻多文档抽取式摘要方法。首先,通过结合了ERNIE预训练语言模型的层级Bi GRU+Attention神经网络,来分别获得具有丰富上下文语义信息的句向量,并采用双线性变换注意力机制融入了句子与用户查询相关性信息的文档特征向量表示;然后,通过句向量与文档向量表示进行相似度计算来得到相应的句子重要性得分,该得分隐式地同时包含了句子的内容显著性及查询相关性;接着在此重要性得分的基础上,再将句子中包含的关键词特征、句子的长度特征以及新闻时序权重系数通过线性组合的方式进一步综合考虑进来,以获得最终的句子综合特征权重得分;最后,再利用改进的MMR算法来进行摘要句的抽取选择。实验结果表明,该摘要方法能在一定程度上提高摘要的质量,在面向查询的新闻多文档抽取式摘要任务中具有一定的优越性和有效性。2.融合句子打分和选择的面向查询的新闻多文档抽取式摘要方法现有大多数相关摘要方法的研究中通常是将候选摘要句的打分和选择作为两个步骤,流水线式地相对分开进行,不能良好地同时交互以利用这两个过程中的有效信息。针对该问题,提出一种融合句子打分和选择的面向查询的新闻多文档抽取式摘要方法。首先,利用上一个摘要方法中的层级Bi GRU+Attention网络编码结构来获得具有丰富语义信息的句向量表示;然后,从基于句子查询相关性引导的注意力和基于新闻时序特征两方面进行考虑,来分别获得包含相应特征信息的文档特征向量表示;最后,利用基于GRU的融合候选句子打分和选择的摘要句抽取部分,来获得同时包含已选摘要句信息、句子与查询的相关性信息以及句子的新闻时序特征信息等多源信息的句子相对重要性得分,并进一步加入显式建模的句子查询相关性权重分数来获得候选句的最终重要性得分,加强了抽取内容与查询的相关度。实验结果表明,该摘要方法在ROUGE评价指标整体上较优于其他同类对比摘要方法,可以在一定程度上较好、有效地抽取出查询相关的新闻多文档摘要。
其他文献
越南语新闻事件检测及共指关系识别,旨在检测出越南语新闻文本中句子级的事件信息,并在此基础上分析事件之间是否从不同的角度描述同一件真实事情。该任务目前存在相关语料匮乏、深层语义难以表征以及数据噪声问题。因此,本文基于多头注意力机制以及生成对抗网络,对越南语新闻进行深层语义挖掘与数据降噪,提升了越南语新闻的事件检测及共指关系识别的性能。论文主要工作如下。(1)越南语新闻事件检测及共指关系识别语料构建。
学位
随着中国与越南的交流越来越密切,汉语-越南语的翻译技术需求不断增长,汉语-越南语这种低资源场景下的翻译技术研究越来越好。然而现阶段研究的翻译技术,更多的是针对正式文体的使用场景,如新闻文本,官方文件等的翻译。对于非正式文体,如网络评论,口语日常对话等使用场景,在同样的翻译模型下,翻译性能明显不足。原因就是在这些场景下,经常出现不符合正常语法的表达方式——代词省略,造成句法成分缺失。这些对于人而言可
学位
多模态机器翻译是利用不同模态的信息辅助文字翻译的任务,视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合来产生高质量的文本翻译。随着信息技术的快速发展,视频引导机器翻已经逐渐成为人们进行跨语言交流的重要手段,也逐渐成为人工智能领域研究热点问题,在自然语言处理、多媒体和计算机视觉领域受到了很大的关注,因为它可以支撑更多的实际应用。虽然该模型已取得一定的研究成果,但仍然存在着一些待
学位
随着深度学习的发展,神经机器翻译模型在各种翻译任务上都取得了卓越的表现,但由于模型参数规模庞大、结构复杂、自然语言在模型内部以不可理解的数字形式传递等原因,神经机器翻译模型仍是“黑箱”模型,其内部工作机制尚无法被直观理解,这导致了难以在原有模型的基础上进一步提升翻译质量等问题。因此,神经机器翻译的可解释性工作具有较大研究价值。为了进一步增进对神经机器翻译工作机制的认识,本工作以目前使用最广泛的Tr
学位
癌症已经成为威胁人类健康的首要疾病,其中肺癌的死亡率又远高于其他癌症类型,其初期检测和防范就显得极其重要。核医学领域PET/CT在癌症的早期检测中发挥着越来越重要的作用。但是由于患者在扫描过程中不自主的呼吸运动,会造成呼吸运动伪影,给医生的诊断带来困难,因此寻求一种有效的方法来提高PET图像质量,降低成像的伪影显得格外重要。为此,本文提出了两种基于深度学习的PET呼吸运动图像伪影校正方法。(1)本
学位
随着经济的快速发展,化石能源消耗与日俱增,环境污染问题愈发严重,大力发展风电是实现低碳转型的重要举措之一。近年来我国风电发展非常迅速,自2013年我国风电装机容量稳居世界第一,至2021年年底累积装机容量已达3.3亿千瓦。然而,风力发电具有较强的随机性和波动性,难以精确预测及调度。随着风电并网容量的不断增加,给电力系统运行的影响也进一步加剧。为此,本文考虑风电出力的不确定性,对含风电的电力系统鲁棒
学位
随着互联网的高速发展,网络资源的海量化和网络资源语种的多样性不可避免地给用户从海量资源中搜索目标资源带来了语言障碍。因此,如何让用户在语言多样性的环境下准确地检索到相关信息成为信息检索面临的难题。为了满足这类型用户的需求,多语言信息检索(Multilingual information retrieval,MLIR)随之产生,它可以在多于一种语言的文档数据库中搜索相关文档以响应查询。MLIR的主要
学位
电缆的特殊结构决定了其数学模型建立的困难性,传统经典电缆模型虽具有依频特性,但对于电缆单位长度电感L、电容C等元件在高频情况下的非线性特性表征仍不够精确,也未考虑极化特性对电缆模型的影响。本文以10k V三芯电缆为例,首先分析分数阶电感、电容元件模型,再结合电缆固体绝缘介质的极化理论建立三芯电缆高频电磁暂态模型。电缆绝缘材料老化后易引发局部绝缘缺陷,运行时易导致局放等早期故障发生,绝缘层被击穿后,
学位
输电线路是电力系统运行的大动脉,是连接电力系统发电端与终端用户的枢纽。由于输电线路运行环境恶劣,导致输电线路故障率高且故障类型种类多。迅速准确地判断出故障位置有利于及时修复线路,保证可靠供电,减轻巡线负担,节省人力物力投入。行波测距法具有定位速度快、测距精度高、使用范围广等优点,单端行波测距因投资成本低、定位结果的实时性强,不受通信装置和对端设备的影响等优势,有更广阔的研究与应用前景。但单端行波故
学位
随着“碳达峰”和“碳中和”目标的提出,人们对传统化石能源的使用越来越节制,对新能源的使用越来越重视,而分布式电源是新能源在配电网中的一个重要体现,以风机、光伏为代表的新能源作为主力电源大量接入到配电网中,分布式电源自身的发电特征严重制约着配电网的安全稳定运行。分布式电源的并网使传统配电网潮流状态发生了变化,供电质量变得难以保证,鉴于目前在保证供电质量上所遇到的困难,亟需对分布式电源并网的配电网优化
学位