基于深度学习的文本关键词生成研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hbl20062
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,现在的社会已经步入了大数据时代,其中文本数据更是呈指数形式增长,人们难以快速地从海量的文本信息中甄别出符合需求的信息。关键词作为文本主题信息的高度凝结,可以帮助人们快速地了解文本的核心内容。同时,关键词也可以应用于文本分类、文献检索、自动摘要、推荐系统等自然语言处理任务。因此,关键词抽取技术变得尤为重要,但是传统的关键词抽取模型存在两点不足:1)大多只能抽取出现在原文中的词语;2)主要依赖文本浅层特征抽取重要的词语,因此难以挖掘并充分利用文本背后的潜在语义信息。近年来,基于神经网络的关键词生成模型能够较好地克服上述抽取模型的局限性,但现有的关键词生成模型得到的关键词依然存在偏离原文内容的问题。为了缓解上述问题,本文将关键词抽取模型和关键词生成模型相结合,快速聚焦于原文核心内容,并尝试多种的融合方式来提高模型生成关键词的质量,本文的主要研究工作如下:第一,当生成文本关键词时,人们通常会从文本中提取重要信息,然后再基于对重要信息的理解来生成关键词,基于此,本文提出通过TextRank算法抽取出文本当中包含重要信息的词语和句子,然后将抽取的重要信息与深度学习模型相结合。我们提出了两种融合方案,一种是将抽取的重要信息融合到注意力机制中;另一种将抽取的信息进行编码,得到重要信息上下文表示,得到的重要信息上下文表示与原文的上下文表示共同决定解码器的输出。在学术论文数据集KP20K上的实验结果验证了所提出的两种融合模型的有效性,另外在新闻数据集DUC-2001上的实验结果验证了第一种融合方式具有更好的领域适应性。第二,现有的生成模型大多仅限于考虑文本自身的内容,较少充分挖掘利用文本当中的重要句子和短语对关键词生成的引导作用,鉴于此,本文提出了一种基于多粒度重要信息引导的关键词生成模型,该模型将抽取的短语和句子作为额外输入进行多粒度编码,然后通过注意力匹配机制获取能够反映文本重要信息的上下文向量,最后与原文编码向量一起融合到序列编码层,从而加强模型对原文重要信息的归纳能力。通过在KP20K数据集上的实验结果验证了该模型的可行性和有效性。
其他文献
关键词描述了文档的主题信息,可帮助读者快速获得文章核心内容,被广泛应用于信息检索、文献管理、文本压缩等领域。相较于传统的关键词抽取方法,基于深度学习的关键词生成方
伴随着社会经济的不断发展,电子技术和微处理以及取得了长足的发展作为以及多参数多控制的典型代表,电控自动变速器是一种将变速器微机和发动机微机合并在一起的新型设备,最
本文是针对EPA规定的16种优先监测的PAHs固相萃取条件的研究。本文采用固相萃取对水中16种PAHs进行富集,并且从改性剂用量、上样速度、固相萃取小柱吸附剂和洗脱速度四个方面
随着机械行业的快速发展,各种高精度零部件需求量不断增多,组合夹具应用越来越广泛。文章阐述组合夹具的概念,并对夹具在零部件制造中的应用进行探讨。
依据认识论解释原则,原始先民对自然懵懂无知,对很多自然现象无法做出科学解释,从而屈从自然、崇拜自然,这是萨满教等原始宗教产生的根源。从认识论和生存论辩证统一的历史唯
高熵合金是由5种及以上主要元素组成的一种单相或多相固溶体。由于其具有优异的疲劳和耐磨性,高硬度和强度,具有良好的延展性越来越被人们所关注。目前针对高熵合金的研究主
语文教学应有科学的评价标准江西省上饶市一中程红兵中语界有句名言,那就是吕叔湘先生在1978年说的:“十年的时间,二千七百多课时,用来学国语,却是大多数不过关。”人们普遍认为语文教
建议中央政法委加强对此项改革的组织、协调和领导$$前一阶段的改革主要是围绕司法责任制展开的四项基础性改革。今年将进入党的十八届四中全会确定的“推进以审判为中心的诉
报纸
大学生职业心理咨询是大学生心理咨询的重要内容 ,其中心任务是帮助大学生把个人兴趣、志向与社会需求有机地结合起来 ,从而树立正确的择业观。
综合考虑烃源岩沉积时的内在属性和沉积之后的外在演化两个方面,筛选烃源岩厚度、总有机碳含量及镜质体反射率评价参数,并提出等效有机碳厚度概念,利用等效有机碳厚度和镜质