论文部分内容阅读
是对学术论文内容的高度总结和提炼,也是正式发表论文必不可少的一部分内容。通过摘要,一方面读者能够对作者的研究内容、研究方法、研究成果有初步的认识,便于读者决定是否阅读全文,提高论文筛选效率。另一方面,摘要又对相关领域的研究者具有一定的吸引能力,吸引对论文感兴趣的读者阅读全文,得到论文全面详细的研究内容。基于以上背景,本文研究的主要工作概括如下:首先,学术论文摘要生成是文本生成的子任务。其中,对抗神经网络(GAN)经常用于文本生成领域。但普通的对抗神经网络在文本生成任务上效果较差,而且会出现无法训练的情况。基于这些情况,本文提出EAD_GAN模型,EAD_GAN模型在生成器中加入蒙特卡洛树搜索(MCTS)方法来解决梯度传播问题,并且在正式训练之前,使用自编码模型提取真实文本的特征分布,提高文本的表达能力。鉴别器使用普通的CNN模型,并且加入交叉熵和强化学习中的奖励机制,旨在提高文本的创新性。实验表明,EAD_GAN模型提高了生成论文摘要的质量和效果。往往包含大量的专有名词、数据说明和实验结果等信息,并且摘要全文围绕着论文题目阐述,整体的结构性较强。但常见的神经网络模型,无法较好的解决上述问题。基于上述情况,本文提出基于图注意力模型和双向LSTM的GAT-Bi LSTM模型,将论文摘要和题目内容相结合进行训练。第一,使用SCIIE模型,将文本数据转化为高度聚合的知识图数据,图数据中包含节点信息和关系信息,可以解决学术摘要中指代问题和逻辑关系问题。第二,使用图注意力模型对摘要图进行特征提取。第三,使用双向LSTM对标题进行特征提取。第四,在训练中将两者特征融合。实验表明,GAT-Bi LSTM模型生成的摘要符合学术论文的行文习惯,生成的摘要创新性较大,较为接近人类编写的摘要内容。最后,新词汇的产生是随着社会发展而发展,使用计算机生成摘要,为学术研究者撰写摘要,提供写作思路和写作灵感,对揭示语言实质和文学研究提供一定的帮助。同时对于计算机生成的摘要,使用自动评价和人工评价两种评价手段,从主客观两方面综合性评价生成摘要的质量,较为准确的衡量摘要效果,也为相关研究工作提供一定思路和方法。