基于LSTM序列到序列模型的文本摘要方法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:vonke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,网络上的博客、新闻文章和报告等文字信息空前增长,从大量的文本中检索到有用信息是一项具有挑战性的任务。自动文本摘要技术为提取这些文本的重要信息提供了一种有效的解决方案,有了简短的摘要,文本内容可以被人们有效地检索、处理和消化。当前比较流行的机器学习自动文本摘要方法大多数使用基于循环神经网络的序列到序列架构,存在不能很好的保留源文本的重要词汇和语法结构、生成的摘要句与源文本语义差异较大、以及产生一些冗余信息等诸多问题。针对以上问题,本文研究了基于LSTM序列到序列模型的文本摘要生成方法,设计并实现了一种改进的编码器-解码器架构来帮助模型生成更加贴合主题信息、冗余信息更少、语法结构更准确的文本摘要。具体来说,本文的主要贡献包括以下几个部分:首先,设计并实现了一种改进的编码器结构。源文本序列输入到编码器之前,经过预处理之后被word2vec模型训练的词嵌入替换,随后采用会根据前后语境对多义词进行理解的ELMo模型代替前者来改进词嵌入方法。编码器使用双向LSTM神经网络同时引入主题融合注意力机制,利用LDA主题模型提取文本潜在的主题信息,为文本摘要提供先验知识。在此改进后的编码器基础上,引入了增强摘要句子结构信息的复制机制,通过将词性以及依存句法关系加入到模型中,以避免漏掉在源文本句子结构中起关键作用的词语以及词与词之间的依赖关系,并通过其在编码器结构中多种组合方式,来对比不同组合对摘要生成结果的影响。其次,在解码器端使用LSTM神经网络解码,并在摘要生成过程中引入覆盖率机制和基于覆盖率的正则化器,对模型进行额外的覆盖训练,选择验证损失最小的模型。同时还引入集束搜索算法,用来减少摘要词的搜索空间,提高搜索效率。并在搜索算法中通过增加一种奖惩机制,用来保留与源文本具有高度相关性的摘要。随后设置多组对照实验来研究这些技术在文本摘要生成中的有效性。最后,将改进后的编码器-解码器在LCSTS公开数据集上进行测试,以ROUGE指标来作为评判标准,实验结果证明了改进后的模型在自动文本摘要任务上的有效性。
其他文献
猪球虫病是一种主要由等孢属(Isospora)和某些艾美耳属(Eimeria)球虫引起的以粘膜出血和腹泻、消瘦为主要特征的寄生性原虫病,其中猪等孢球虫对哺乳仔猪的感染性最高,致病力最强。猪球虫多寄生于猪肠道粘膜上皮细胞内,呈世界性分布。近年来,随着养猪集约化规模化的发展,该病逐渐成上升趋势,给养殖业带来极大的经济损失。帕托珠利作为妥曲珠利的活性代谢产物,在猪体内消除速率缓慢,半衰期长,在临床防治球
传统文化的复兴与传播,是党和政府历年来十分重视的议题。2017年国务院通过决议,将全面复兴传统文化作为我国的一项基本国策。2018年8月21日在全国宣传思想会议工作中,习近平总书记强调,做好新形势下宣传思想工作,必须自觉承担“举旗帜、聚民心、育新人、兴文化、展形象”五项使命。文化类电视节目作为弘扬国家民族精神、传承民族文化的重要传播载体之一,肩负着传播使命。以央视为代表的电视台开始创办集文化与综艺
骨肿瘤是一种发生于骨骼系统的肿瘤,其中恶性骨肿瘤的致死率很高。如果骨肿瘤不能得到及时的治疗,病人往往存在截肢甚至癌细胞扩散的风险,早发现和及时治疗是减少骨肿瘤死亡
龙仁青是青海的藏汉双语作家,主要汉语小说集有《光荣的草原》、《锅庄》、《咖啡与酸奶》。在龙仁青的小说中,对铁卜加草原的书写别具特色,引起了广大读者和批评者的注意。
因房地产行业去年受到去库存的影响,以及工业企业产能过剩等影响,整个建筑行业的发展也随之放慢了下来。外加国内外经济下行的趋势,整体市场的需求减少,企业间的竞争愈加激烈
矿井突水问题会对煤矿造成重大生命财产损失,一直是困扰煤矿安全生产的重要隐患。突水后,水源问题是首要考虑的,因此,矿井突水水源的快速识别,以及突水模式的准确判别,对于矿井防治水工作以及安全生产有着十分重要的意义。本文以裴沟煤矿作为研究对象,通过现场钻孔定视技术分析了底板破坏规律,运用了MODFLOW数值模拟软件模拟分析了有无断层条件下采动对地下水渗流场影响;基于对研究区历年和研究期间测试的水化学资料
目标检测任务主要目的是对场景中的物体判定类别,并运用三维框标记出其三维位置与尺寸大小。目前,针对三维目标检测任务,深度学习网络通过对大量数据的学习可得到提取更具有
无线通信环境安全是信息社会下个人隐私安全、国家财产安全的根本保障。在5G网络到来之前,传统的物理层安全认证方案在网络挂载激增和计算能力不断提升的强压下,已经日渐暴露出安全认证的种种弊端。更甚至,随着网络环境的复杂化、动态化,现有基于无线信道特征的认证方法并不能有效适应网络环境的时变特性,从而无法保证安全认证的可靠性。为了充分提取无线信道特征,实现可靠、安全的轻量级物理层安全认证,本文着重研究了基于
随着互联网经济的不断发展,人们的生活质量不断提升,对于速冻食品、海鲜等冷链产品的需求也不断增加。为了提升消费者的购物体验,保证冷链产品的新鲜度和安全性,越来越多的生鲜农产品零售企业开始采用新零售模式,该模式融合了线上电商和线下零售的优点,缩短了门店与消费者之间的配送距离,较好的解决了最后一公里的问题。然而新零售模式下的门店多采用少量多批次的进货策略,因此,对冷链企业的配送效率提出了更高的要求。本文
酴醾是宋代文学中始兴起的一种花卉意象。在文字记载中,最初出现在唐人诗句,为宫廷御酒,进入宋代以后,酴醾指称一种园林观赏花卉,同时可酿鲜花酒,与其字义“典型”重新建立联系。酴醾缺乏累世品鉴的基础,但在宋代诗词中,其书写追赶传统名花。酴醾在宋人品花背景中花格较高,经宋代发轫、发展并达到书写高峰;199家诗人共计555首涉酴醾诗,是宋代书写最普遍的花卉意象之一。作为一种宫廷御花而闻名,酴醾书写的地理位置