基于深度学习的中文单文档自动文摘方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lxzshenzhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘就是通过编写程序让计算机自动的从原始文档中提取摘要,所提取的摘要必须是全面准确的反映原始文档中心内容并且形式上是简单连贯的短文。基于神经网络的生成式文本摘要一般是通过将原始文档的内容加以“理解”,和抽取式摘要相比,它可以言简意赅的概括文本摘要,语法也很简洁且可读性强。然而在实际应用中,由于技术的限制,现如今一些主流的基于神经网络的生成式文本摘要方法生成的摘要中经常会出现OOV(Out of Vocabulary)问题以及原文中某些重要的语义单元不断地重复于最后的摘要中的问题。造成这种现象的原因主要有:第一,原文中出现次数少但是又极其重要的词、短语等语义单元很难被很好的捕捉到并作为摘要的一部分输出;第二,由于人工神经网络自身的弊端导致生成通顺的语句比较困难。本文以提高中文单文档摘要的生成质量为目的,针对上述自动摘要所面临的问题做了以下两个方面的研究:1.提出了一种融合词抽取的策略来改善一些在原文中极其重要的低频词无法被很好的生成在最后的摘要中。传统的注意力机制只能关注到哪些输入对输出有着更加大的影响,本文的策略通过增加一个词表,该词表在原有语料库的词表的基础上加上所有原文中包含的词但是初始词表中没有包含的词,这样在生成词的时候就可以考虑到原文中低频词的概率分布并生成这些词作为最后的摘要。实验结果表明该策略能在LCSTS以及NLPCC2017两个数据集上相较传统的抽取式方法以及基于基础的端到端的神经网络模型更好地结果。2.提出了一种消重策略来改善摘要中单个词的重复出现的问题。每次生成当前单词的时候都会将前一个生成摘要单词作为输入,所以在解码过程中,会出现注意力过分其中在编码器的某一部分,从而造成了错误,然后就出现无休止的短语重复,基于这个问题,我们加入了新的融合机制,在每次生成词的时候对之前“关注过”的词在这一轮给予一定的“惩罚”,这样就可以避免之前由于生成过的单词在这一轮再次受到较高的“关注度”。实现表明该策略在生成的摘要中能有效地避免重复出现某个重要的单词,使生成的语句可读性更好。
其他文献
我国证券市场创建初期,由于股市容量小,不能承受大公司上市带来的冲击和压力,许多企业采取分拆上市,分拆上市使得大量与上市公司业务相关的资产留在了母公司,导致上市公司与
试论翻译中的语域取向周俊清美国著名翻译理论家奈达在1982年出版的TranslatingMeaning中提到:“…‘translatingmeanstranslatingmeaning”(“翻译即是翻译意义”)①,后又在1986年出版的Fro...
浅谈国际贸易中商标的翻译魏彩霞商品的商标如同人的名字,是代表商品的符号,并随着商品交流的扩大而声名远扬。许多国际著名的商标已经成为企业的无形资产和巨大财富。成功的商
<正>在高中数学教学中,三角函数是重要教学内容,是提高学生分析与解决问题能力的有效载体,对后面的数学学习有着重要的促进作用。同时,三角函数也是难点知识,涉及了许多公式,
倒立摆系统仿真与实物控制实验是控制领域中用来检验某种控制理论或方法的典型方案。它对一类不稳定系统的控制以及对于深入理解反馈控制理论具有重要的意义。目前,倒立摆平
为探明不同水位梯度对湿地土壤性质的影响,对杭州湾围垦芦苇湿地不同水位条件下土壤有机碳(SOC)、全氮(TN)、全磷(TP)含量和化学计量比及其相关性进行研究.结果表明:(1)SOC 和TN 含量
随着我国教育事业改革的不断深入,小学数学教学从教材和教学方法等方面进行改革和创新,教师通过采取有效的教学方法,不断提高小学生数学教学效率,从而满足日益发展的小学教育
视唱练耳是我国音乐教育中的一门对学生视唱、练耳和音乐基本理论等音乐基础知识与技能进行综合训练的音乐教育基础学科。具有多学科交叉、知识结构相互渗透的特点。培养和提高学生识谱、读谱、音乐听辨等基本的音乐能力是开设这门课程的目的所在。随着近年来人们对音乐教育的认识不断提高,我们对于视唱练耳课程的重视程度也越来越高。各个高校也在不断地在进行着视唱练耳教学的改革,试图能够寻找出一条适合我国国情的视唱练耳教学
【正】 王力先生《汉语史稿(中)》说:“‘家’字也有词尾性质。中国古代早有‘法家’、‘名家’之类。但那和今天的‘艺术家’、‘建筑家’之类到底有些不同。‘法家’、‘名
以氢氧化镁、氢氧化铝和表面改性剂为原料,清洁制备改性Mg-Al水滑石,并将其应用于PVC热稳定剂中。通过FI-IR、激光粒度仪和转矩流变仪表征,重点研究了表面改性剂的种类对改性