融合关键词的新闻文本摘要生成方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ASD121406113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展,信息冗余成为制约人们快速了解最新信息的主要问题。新闻文本摘要生成已经成为人们实现快速阅读必不可少的技术措施。融合更多特征信息以生成更准确、更具有可读性的文本摘要是现在摘要生成研究的主流方向。针对现有关键词提取方法和摘要生成方法在中文新闻文本方面的不足,同时结合中文新闻文本长度较短,信息高度浓缩的特点,根据文本摘要的研究现状,本文进行了融合关键词的中文新闻文本摘要生成方法的研究工作。主要完成了以下研究工作:(1)提出融合LSTM和LDA差异的新闻文本关键词抽取方法。针对传统的Text Rank算法没有考虑语义信息的影响,同时考虑到新闻标题信息高度浓缩以及关键词应该同时具有覆盖性与差异性的特点,提出一种融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法综合考虑了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗新闻语料上的实验结果表明,该方法的关键词抽取结果相比于传统方法在准确率和召回率都有明显提升。(2)提出融合关键词的中文新闻文本摘要生成方法。针对现有基于seq2seq模型在生成摘要时容易出现语义无关的摘要词,同时结合新闻文本长度较短,信息高度浓缩的特点,我们强调了关键词信息在中文新闻摘要生成中的作用,提出一种融合关键词的中文新闻文本摘要生成方法。首先,将源文本词依次输入到Bi-LSTM模型中;其次,将得到的隐藏状态输入到滑动卷积神经网络,提取每个词与相邻词之间的局部特征;然后,利用关键词信息和门控单元对新闻文本信息进行过滤,去除冗余信息;最终,通过自注意力机制获得每个词的全局特征信息,编码得到具有层次性的局部结合全局的词特征表示,将编码得到的词特征表示输入到带有注意力机制的LSTM模型中解码得到摘要信息。该方法通过滑动卷积网络对新闻词的n-gram特征进行建模,在此基础上利用自注意力机制,获得具有层次性的局部结合全局的词特征表示。同时我们考虑了关键词在新闻摘要生成中的重要作用,利用门控单元去除冗余信息,以获得更精准的新闻文本信息。在搜狗新闻语料上的实验表明,本文提出的方法能够有效提高摘要生成质量,能够有效的提高ROUGE-1、ROUGE-2、ROUGE-L值。(3)构建中文新闻文本摘要生成的原型系统根据本文提出的融合LSTM和LDA差异的新闻文本关键词抽取方法以及融合关键词的中文新闻文本摘要生成方法,同时利用实验采集到的语料,设计搭建了融合关键词的中文新闻文本摘要生成原型系统。首先,我们介绍了搭建该系统所用到的工具和框架。其次,我们主要介绍了该系统实现的主要功能,同时详细阐述了该系统的设计过程。最终,我们对本文实现的新闻关键词提取以及新闻文本摘要生成的结果分别进行了展示。
其他文献
环境污染造成的侵权行为不仅会造成受害人财产损失,还可能带来严重的人身损害,其中包括精神损害。依据现行法律规定,由环境侵权造成的受害人精神损害,人民法院予以支持。但是,基于环境侵权的特殊性,一般的精神损害赔偿规定是否可以不加以区分同样适用环境侵权纠纷,精神损害结合环境侵权是否具有独特的界定方式,值得疑问。本文分为四章,从环境侵权中精神损害赔偿的界定出发,以司法适用的角度切入现状及困境,从而探寻环境侵
本论文在充分利用巴喀地区现有研究成果的情况下,结合岩心观察、成像测井、测试成果、地震资料等,以构造地质学、油矿地质学及数理统计等为理论指导,研究巴喀地区八道湾组裂缝的发育特点及影响因素,通过三种手段预测了裂缝的分布,采用综合评价方法对三种手段得到的结果评判,研究裂缝有效程度前提下,总结有效缝展布规律。得到如下结果:巴喀地区KEKEYA构造八道湾组断裂以北西西向占主要,平面与剖面上具有多种组合形式。
在部分肝脏切除手术过程中,肝脏内部解剖结构的不可见性直接影响手术精度,同时手术医生需要将患者术前CT或MRI等二维图像信息与患者术中三维解剖信息进行拟合,这对手术经验要求较高,医生术中心理负担较大,此外术中超声图像信息较难理解,都限制了部分肝脏切除手术的发展。增强现实技术的出现为该问题提供了一种解决思路,该技术是将术前CT进行分割重建后获得术前模型并叠加在手术场景中,直观展示患者肝脏解剖结构,指导
本研究在分析了各种常见的磷尾矿资源化利用方法后,提出了利用磷尾矿脱除烟气中二氧化硫的方法;本研究采用XRD对磷尾矿进行了物相分析,利用化学分析方法ICP等对磷尾矿成分进行了分析,通过实验又对磷尾矿脱除二氧化硫的性能以及磷尾矿脱硫的强化进行了研究。在磷尾矿脱硫实验中,主要研究了固液比、温度、进口SO2浓度对脱硫效率的影响规律。实验结果表明,三者对脱硫效率的影响都较大,最佳反应温度为25℃,随着温度升
对土壤造成污染和危害的重金属种类有很多,其中镉(Cd)和砷(As)是较为常见的两种元素。很多研究表明外源添加植物生长调节剂是一种行之有效的措施来提高超富集植物富集重金属。植物生长调节剂在促进超富集植物生长和提高土壤修复效率方面已取得很多成果,但大多为室内盆栽实验,不同植物生长调节剂配合施用提高超富集植物修复效率的大田实验甚少。因此,在课题组之前室内砷超富集植物蜈蚣草(Pteris vittata
现代社会的许多领域中,经常使用多种传感器去捕获同一场景的多幅源图像,这些源图像包含了不同的信息,图像融合任务就是将多个传感器获得的不同信息进行融合处理,使得源图像间的信息互补并综合到一张图像中,得到的融合图像将更加有利于广大学者们的进一步研究以及其他行业的应用。对于图像融合任务,以往的稀疏表示方法对源图像进行分块处理,但这一做法会对图像的某些结构和特征信息造成一定程度的破坏,影响图像的整个结构特征
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太成熟。在汉缅神经机器翻译中,译文存在词语表规模受限问题,出现较多词表没有覆盖的词语和低频词,这些词语被称为未登录词。引入双语词典这类外部知识对于对于汉缅机器翻译中的未登录词问题有很大的帮助。针对双语词典在汉缅神经机器翻译中的融合,论文主要完成了以下研究工作:(1)基于CNN-C
学位
自动文本摘要任务作为自然语言处理领域中的一项基本任务,其对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余信息的问题,有效地解决了信息过载的问题。由于传统的中英文自动文本摘要技术难以移植到柬语上,为了丰富柬语自然语言处理工作的理论与应用,本文对柬语多文档抽取式摘要方法进行了研究。本文的主要工作具体如下:(1)基于深度主动学习的柬语单文档抽
曼家寨矿区西邦边坡主要岩性为二云片岩、大理岩,分布于新寨岩组第六、五、四岩性段。二云片岩为软岩,在破坏时具有柔性特征,大理岩为较坚硬岩,破坏时具有脆性特征,层理面对边坡的变形和破坏具有重要的控制性作用,当层理面与坡面倾向相反时,即为反倾边坡,在以往的调查研究中这类边坡发生变形破坏多以倾倒变形为主。本文考虑两种软硬岩性的组合关系,从总结两种岩性的结构面特征出发,研究影响该边坡稳定性最不利影响因素的变