中文长文本自动摘要关键技术研究与应用

来源 :苏州科技大学 | 被引量 : 0次 | 上传用户:wenshi_shen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
是自然语言处理领域中一个重要的任务。随着深度学习技术的发展,相比于短文本摘要技术,长文本摘要发展缓慢。一方面缺乏可用的大规模数据集;另一方面,当文本序列过长时会产生长距离依赖问题。针对上述问题,本文基于深度神经网络技术,开展长文本摘要建模方法研究。本文从以下四个方面对长文本自动摘要任务展开研究:(1)针对当前中文长文本数据集缺乏的问题,本文采用中文专利数据构建了一个大型的专利数据集。该数据集在关键信息分布、实体衔接性、摘要新颖性等方面与CLTS(中文新闻领域长文本摘要数据集)和CNN/DM(英文新闻领域数据集)进行了对比分析,相关数据表明LCP在长文本摘要任务上更具有挑战性。(2)针对抽取式摘要生成中句子重要性评估和句子选择过程分离的问题,提出了基于BERT打分和Ranking选择机制联合建模的文档摘要方法。该方法将这两个任务结合到一个序列模型中。首先,输入文档中的句子经过BERT映射为高维表征后经过全连接层进行分类;然后,使用Ranking机制抽取出候选句子,再将抽取出的句子用于下一轮的句子抽取,直到生成事先设定长度的摘要。在LCP数据集上的实验表明,本文模型比其他分开建模的模型在Rouge-1、Rouge-2、Rouge-L得分上分别高出1.4%、3.8%、1.6%。(3)针对生成式文档摘要中不能充分捕获输入文档中关键信息的问题,本文提出了一种全局选择编码机制。序列模型的编码器在读取输入后,全局选择编码机制根据文档整体的含义,判断每个单词的重要性,然后选出关键的语义信息和文档的语义向量作为解码器的输入,生成最终的摘要。在LCP数据集上的实验表明,本文模型比基线模型在Rouge-1、Rouge-2、Rouge-L的评分上分别高出0.4%、0.2%、0.7%。(4)针对笔录案情摘要自动生成任务,本章将第四章提出的基于BERT的句子重要性评估和基于Ranking机制抽取的联合模型和第五章提出的全局选择编码模型应用在这一任务上。实验结果表明,第四章提出的联合模型在这一任务上优于其他抽取式摘要方法。而全局选择编码模型在这一任务上,比基线模型在Rouge-1、Rouge-2、Rouge-L的得分上分别提高17%、3%、21%。同时,由于笔录案情数据集不够充足,支撑深度神经网络模型的训练有些乏力,因此,本文提出了面向小样本数据的长文本自动摘要任务的增强策略,这一策略可以有效提高基线模型在笔录案情评估数据上的性能,比未使用策略的基线模型在Rouge-1、Rouge-2、Rouge-L上分别提高了14%、17%、12%。本文面向长文本自动摘要任务,构建了一个中文长文本专利数据集,提出了基于BERT的句子评估和Ranking机制的联合模型以及全局选择编码模型,为长文本摘要任务的发展提供了数据支撑,同时两种模型的提出也可以为后续基于序列到序列模型的长文本自动摘要研究提供重要支持。
其他文献
为了降低成本,风电机组的单机容量越来越大,对其输出优质电能、稳定状态运行等方面也提出了更高的要求。对于风速和叶片载荷实时、有效的检测和可靠、精确的算法处理是实现对风电系统有效控制的前提与关键。本文针对传统的风速检测仪器无法有效地测量风轮轮毂处风速,现有风速估计方法存在精度差、滞后性等问题,提出了基于激光雷达的风速检测和轮毂处估算方法。首先介绍了激光雷达的远距离风速测量原理和方法,然后为了得到风机轮
学位
结构化知识库自动问答任务面向自然语言问题文本与结构化知识库,通过模型学习生成SQL语句获取问答结果,是当前自然语言处理领域的重要课题。针对现有结构化知识库自动问答无法有效解决问题文本中存在的实体模糊、问题文本难以与知识库语义融合、答案生成不自然等问题,本文以中文结构化知识库的自动问答为研究对象,结合单个知识库、单轮问答场景,构建深度学习模型,实现自然答案生成,提升基于结构化知识库的问答效果。本文从
学位
数据驱动下的强化学习已经得到迅猛的发展,特别是在一些能生成大量样本数据的场景中,甚至达到超人类水平(如,围棋、雅达利游戏)。但这些成果都只是某一智能体于特定任务的表现。智能体表现出的对数据的贪婪性和对任务间较差的泛化性,是现今人工智能技术发展的主要瓶颈。小样本强化学习以加快学习进程、降低样本复杂度为目的,使强化学习能在采样困难、昂贵的场景中加以推广。在方法论上,小样本强化学习主要通过泛化经验中的知
学位
从必须报告的禽流感定义出发,解析了该类禽病的监测、控制策略,针对我国当前的疾病流行情况,对H5和H7亚型禽流感的发生与防控策略进行了总结。
期刊
多智能体系统近年来被广泛运用于各类行业,包括民用方面和军事方面,其分布式控制也是越发受到关注。其中,作为多智能体系统分布式控制领域的基本问题之一,一致性问题在该领域也扮演了一个不可或缺的角色。本文主要研究在某些系统状态不可测的前提条件下的几类多智能体系统,通过为这些智能体设计观测器,用观测值代替真实值来设计一致性协议,实现各智能体之间的状态一致性。本文的工作主要分为以下三个部分。1.针对同时含有未
学位
人口数据能反映一个国家或地区的人口在地理空间中的分布,也是反映社会经济发展和城市建设状况的重要数据源。传统的人口数据通常以人口普查和抽样调查的方式统计获得,存在时效性差、难以与其他地理空间数据融合等局限。人口数据空间化方法是实现人口空间分布模拟的有效方法,能得到的更高时间和空间分辨率的人口数据。然而此类方法在模拟人口空间分布时采用“自上而下”的建模思路,模拟得到的结果难以反映“自下而上”微观个体行
学位
命名实体识别是自然语言处理领域的核心任务,是机器问答、信息检索等任务的基础性工作;其最核心的目标是从非结构文本中寻找、识别和分类相关实体。当前命名实体识别在英文上已经取得了巨大的成功,但在中文领域上的研究进展远落后于英文;尤其是面向一些专业领域,如电子医疗病历实体识别等,中文命名实体识别的研究还有待进一步提高。在通用数据集上,中文相较于英文有着更为复杂的语法结构且字词之间无空格来分割,因此存在边界
学位
目的:观察温经汤配合腕踝针治疗寒凝血瘀型痛经的疗效。方法:选取本院就诊的寒凝血瘀型痛经患者60例,随机分为治疗组及对照组各30例。治疗组用温经汤配合腕踝针治疗,对照组用西药治疗。结果:治疗组痛经缓解优于对照组(P<0.05),且用药后痛经症状积分低于对照组(P<0.05)。治疗组总有效率高于对照组(P<0.05)。结论:温经汤配合腕踝针治疗寒凝血瘀型痛经能缓解临床症状,且维持疗效时间更持久。
期刊
姿势迁移的图像生成技术旨在将给定的源人物姿势转换为设定的目标姿势,同时,保持生成人物图像的外观及服装纹理与源人物的尽可能一致。人物姿势的表示是姿势迁移研究中的核心问题。目前使用较为广泛的是基于人体关键点的二维姿势表示,该方式的优点在于获取方便,可通过已经成熟的姿势估计算法直接通过对源人物图像计算得到准确的姿势关键点。其他方法如基于3D表示的人物姿势由于获取困难,使其应用场景十分受限。然而,使用二维
学位
时间序列是按时间刻度有序并且互相关联的数据序列,数据特征随时间具有一定的变化规律。时间序列预测已经在商业、环境、医学、工业等各个领域得到了广泛的关注。实现准确的预测对节约资源、提高效率、减少成本、优化配置等方面都具有重要的作用。时间序列预测方法是根据历史的时间序列数据、相关特征等推算未来观测值的手段。目前时间序列数据预测的方法以深度学习模型为主,虽然取得了很多研究成果,但是在时间序列数据的预处理、
学位