基于注意力机制的文本生成式摘要方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ZDLANJIBA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网和信息技术的飞速发展,互联网上的数据和文件呈爆炸式的增长,信息超载问题愈益严重。因此,如何从海量的数据中快速、准确获取有用信息变得重要。文本自动摘要技术是一种从文本文档、文章或博客等较大的文本集合中产生简洁而重要的信息的方法,已成为国内外的研究热点。的研究集中在抽取式摘要,从原文中抽取句子表示摘要,但不够精炼,表示效果差强人意。而生成式摘要是通过理解文本内容,从而生成新句子,与抽取式摘要相比,有着更为灵活的词汇组合和表达方式。基于此,本文将分析文本底层编码特征、文本词向量表示、注意力模型机制、等,从底层到模型结构全方位来展开对生成式摘要问题的研究。主要完成了以下工作:(1)采用了一种基于知识迁移融合多特征的文档词向量表示方法。词向量作为文本特征表示的基础工作,其表达的准确率直接影响各个上层模型结果的性能。用词嵌入技术训练词向量时,越多的文本数据训练出的词向量质量越高,所以本文用维基百科外部数据集,采用知识迁移的方法在任务训练集上进行增量训练,从而训练改善词向量质量。同时,在文本分类和摘要研究中,文本词的一些其它特征如词频逆文档频率等也被广泛使用,并取得不错的效果。为进一步提高文本中词表征质量,本文采用将词频逆文档频率、词性等特征和知识迁移后的词向量进行融合,产生新的词向量,并通过实验验证了本文采用的词向量表示方法的优越性。(2)采用一种基于注意力机制的指针覆盖文本摘要方法。在此方法中,采用两个双向长短时记忆网络(LSTM-RNN)捕获文档两个重要级别的信息,一个在单词级别,另一个在句子级别。然后,在这两个层面上引入注意力机制,让模型关注重点词。最后,解码阶段引入混合指针生成器网络,用生成概率和复制文本的概率叠加生成最后的摘要。本方法,消除了低频词的干扰,捕捉了句词结构,很好结合了利用原文本还是生成新的词的问题,提高了摘要生成的性能。(3)设计并实现了基于注意力机制的自动摘要原型系统。
其他文献
随着国际范围贩毒、吸毒问题日益严重,我国不可避免地受到影响和冲击。近年来我国吸毒人群明显增加,从境外走私进入我国的毒物新品种陆续有所发现,多药滥用的诊治问题也迫切
会议
本文采用一步法成功制备了聚氨酯微球改性的蚕丝蛋白材料,以及成功研制了一种,针对改性蚕丝蛋白类难以脱模高聚物材料冲击厚样脱模的新型装置。本文首先研究了新型改性蚕丝蛋
近年我国的科普场馆逐渐增多,同时社会对儿童教育的关注度也逐渐提高,儿童科普展览研究的社会价值及经济价值日益显著。但由于国内对儿童展览的研究较迟,策展经验不足,目前频
黄嘌呤脱氢酶是嘌呤分解代谢途径的关键酶,具有催化(次)黄嘌呤生成尿酸以及降解醛类化合物的作用,与氮同化、激素代谢、衰老及活性氧产生等过程相关。目前该酶及其编码基因的功
群落构建机制研究是生态学研究的热点之一。长白山自然保护区拥有完整的原始阔叶红松林生态系统,近年来随着物种多样性丧失愈发严重,对该地区开展群落构建机制研究显得尤为重要。研究以长白山不同演替阶段的3块5.2 hm:固定监测样地(次生杨桦林、次生紫椴红松林、原始紫椴红松林)为研究对象,通过采集样地内主要树种的7个关键功能性状(叶面积、比叶面积,叶片厚度、叶氮含量、叶磷含量、叶片氮磷比和最大树高),分析不
随着科学技术的不断发展,新一代移动智能设备集成了许多性能可靠、功能强大的传感器设备,比如GPS传感器、视觉传感器、声音传感器、光线传感器、方向传感器以及加速度传感器
在经济全球化的浪潮中,许多发达国家的大型企业很早便走出国门,在世界的舞台上崭露头角。但是近年来,全球外国直接投资总额却出现了历史性的下滑,欧洲地区2018年的对外直接投
目的:对脑微出血(cerebral microbleeds,CMB)与脑梗死后90天内卒中复发进行研究,从而探讨CMB对脑梗死复发是否能起到预测作用。方法:连续性筛选2015年1月-2016年12月诊断为急
中国制造业在新一轮技术革命中面临着来自发达国家通过再工业化战略重塑竞争优势和发展中国家承接产业和资本转移的双重挤压挑战,创新驱动产业升级,实现向上突破成为制造业企
陆地生态系统是减缓温室效应和调节气候变化的重要系统,植被碳利用效率(Carbon Use Efficiency,CUE)是碳循环的重要生态学参数,反映了植被将大气中CO2转化为生物量的固碳转移效