论文部分内容阅读
随着互联网技术的不断发展,现在的社会已经步入了大数据时代,其中文本数据更是呈指数形式增长,人们难以快速地从海量的文本信息中甄别出符合需求的信息。关键词作为文本主题信息的高度凝结,可以帮助人们快速地了解文本的核心内容。同时,关键词也可以应用于文本分类、文献检索、自动摘要、推荐系统等自然语言处理任务。因此,关键词抽取技术变得尤为重要,但是传统的关键词抽取模型存在两点不足:1)大多只能抽取出现在原文中的词语;2)主要依赖文本浅层特征抽取重要的词语,因此难以挖掘并充分利用文本背后的潜在语义信息。近年来,基于神经网络的关键词生成模型能够较好地克服上述抽取模型的局限性,但现有的关键词生成模型得到的关键词依然存在偏离原文内容的问题。为了缓解上述问题,本文将关键词抽取模型和关键词生成模型相结合,快速聚焦于原文核心内容,并尝试多种的融合方式来提高模型生成关键词的质量,本文的主要研究工作如下:第一,当生成文本关键词时,人们通常会从文本中提取重要信息,然后再基于对重要信息的理解来生成关键词,基于此,本文提出通过TextRank算法抽取出文本当中包含重要信息的词语和句子,然后将抽取的重要信息与深度学习模型相结合。我们提出了两种融合方案,一种是将抽取的重要信息融合到注意力机制中;另一种将抽取的信息进行编码,得到重要信息上下文表示,得到的重要信息上下文表示与原文的上下文表示共同决定解码器的输出。在学术论文数据集KP20K上的实验结果验证了所提出的两种融合模型的有效性,另外在新闻数据集DUC-2001上的实验结果验证了第一种融合方式具有更好的领域适应性。第二,现有的生成模型大多仅限于考虑文本自身的内容,较少充分挖掘利用文本当中的重要句子和短语对关键词生成的引导作用,鉴于此,本文提出了一种基于多粒度重要信息引导的关键词生成模型,该模型将抽取的短语和句子作为额外输入进行多粒度编码,然后通过注意力匹配机制获取能够反映文本重要信息的上下文向量,最后与原文编码向量一起融合到序列编码层,从而加强模型对原文重要信息的归纳能力。通过在KP20K数据集上的实验结果验证了该模型的可行性和有效性。