基于强化学习的新闻文本摘要研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:music5700
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻一直是人们获取信息的重要途径,特别是随着移动智能终端的普及,微博、微信公众号等诸多新兴媒体逐渐代替了传统的纸质媒体。这些新媒体为了引人注目,往往将标题起的非常夸张,但新闻内容可能和标题毫不相干。当下快节奏的生活方式决定了阅读往往是碎片化的,人们急需一种方法能在短时间内快速了解新闻的重点内容。自动文本摘要技术可以对新闻进行压缩和总结,提取重点内容,过滤冗余信息,提高人们阅读效率。本文主要结合强化学习方法,对文本摘要模型进行改进,主要研究内容如下:(1)生成式摘要模型构建及改进。采用Encoder-Decoder框架,使用预训练语言模型提取语义特征,同时采用内部注意力机制记忆历史重点信息,解决长距离依赖问题;增加指针机制,解决未登录词(OOV)问题。(2)基于强化学习中的自批判策略梯度方法提升模型生成摘要的质量。主要提升两方面的性能:一是在ROUGE评分上的表现;二是摘要的语义连贯性。其中本文提出了基于预训练模型的语义连贯性评价网络,对生成摘要的语义连贯性进行评分。最后在CNN新闻数据集上进行实验,实验结果证实了自批判策略梯度方法能有效提升生成式模型在ROUGE指标和语义连贯性指标上的表现。(3)针对生成式摘要模型处理长文本能力不足的问题,提出基于实体特征和演员评论家算法的生成式摘要增强方法。即先使用抽取模型抽取重要句子,再使用生成模型进行摘要生成。在抽取式模型方面,提出引入文章中的共指实体信息辅助模型抽取,以增强抽取句子的准确性。同时基于强化学习中的演员评论家算法将两个模型组成端到端的系统进行训练,最大化发挥抽取加生成的优势。实验结果同样验证了基于实体特征和演员评论家算法的生成式摘要增强方法的有效性。(4)设计并实现了新闻文本摘要生成系统。以本文提出的摘要模型为基础,结合Web开发技术实现一个新闻文本摘要系统,为用户提供新闻摘要服务,并将最终结果在网页上展示给用户。
其他文献
近些年来,随着信息技术的迅猛发展,反映国家经济活动的高分辨率数据越来越多,从而涌现了许多探索国家经济发展的研究。大量实证研究表明,国家经济与疾病、环境、贸易、教育、科学研究等各方面的活动息息相关。技术创新也是关乎国家经济发展的重要因素之一,但目前技术创新与经济增长关系的研究仅仅停留在相关性分析上,没有深入到预测层面,且大规模、长时间跨度的定量分析仍然缺乏。为了弥补上述缺陷,本论文旨在利用专利这一丰
随着时代的发展,越来越多的人选择走进博物馆,或是享受历史博物馆带来的文化熏陶,或是感受科技博物馆带来的知识魅力。所以博物馆如何更好得服务参观者,用有限的展示空间去尽可能满足游客的参观需求成为很有意义的研究方向。传统的研究方法可能大多局限于问卷调查和人为询问,使得参观者和博物馆工作人员都不太便捷。所以本文主要研究如何结合现有的人工智能技术来获取参观者对博物馆展品的评价,方便博物馆优化其展品的展陈。一
随着互联网的快速发展,新闻的载体逐渐由报纸向网络新闻转变,人们也更倾向于使用电脑和手机去接收新闻消息,互联网给人们带来便捷的同时,也为虚假新闻滋生提供了温床。自媒体的发展,使互联网新闻内容的呈现方式愈发多样,常常包含文本、图片和评论等各种信息,如何有效利用这些信息进行虚假新闻检测,对维持社会稳定、净化网络空间有重要作用。虚假新闻是可被证假且故意传播的新闻报道,传统的虚假新闻检测方法往往只关注单一模
随着大数据时代的到来,快速精准地从科技文献中识别和预测热点科研主题是帮助科研工作者了解特定科研领域研究现状的重要手段。从海量的学术文献中获取科研热点及科研主题的演化趋势,不仅可以帮助科研人员节约大量人力物力,同时还可以帮助诸多科技创新主体和科技政策制定者从宏观、全局的角度出发,全面深入的了解相关科研领域的现状和未来趋势。因此识别科技领域的热点主题和对主题热度的趋势预测具有重大的现实意义。基于以上背
社交媒体是互联网上基于用户关系的内容生产与交换平台。近几年社交媒体的迅速扩张使人们可以实时便利地了解世界上正在发生的事情的信息。基于社交媒体的事件检测是一种从海量社交媒体内容中挖掘出有价值信息的技术。基于社交媒体中检测出的事件,国家管理机构能够及时了解现实社会的重大突发事件并采取相应措施,个人能够及时了解社会上出现的热门话题并参与讨论。社交媒体事件检测方法中,在线事件检测由于其时效性较高,最受研究
复杂网络作为一个新兴的研究领域其研究方向在很大程度上依赖于大规模互相关联的结构化数据集。科学学(Science of Science,SciSci)是复杂网络研究在学术界的一个延申领域,其本身就是一个由学者、项目、文献和思想等学术主体自组织而形成的一个复杂网络体系。通过对该网络体系进行采样研究,以复杂网络作为理论基础,以大规模的学术主体作为关联对象,由网络的拓扑结构特性表征出科研领域本身的发展机理
新闻媒体是人们在互联网上获取信息的重要客体之一,分析新闻媒体网络中人物的影响力有助于社会科学研究者或经济政治研究者了解国际或社会型事件动态,对新闻中的信息进行传播动力分析。为了高效处理新闻中的复杂信息,常把问题转化为复杂网络相关问题进行解决。在现有的针对复杂网络节点影响力的研究中,仅利用了节点局部信息或全局信息,忽略了节点影响力贡献以及局部与全局信息的联系,从而导致影响力评估效果不佳。并且现有方法
随着互联网、大数据等技术的快速发展,数字化办公已经成为了现代企业最基本的资源配置。日常办公过程会产生大量电子文件信息,呈现出指数级增长趋势,所以需要开发档案管理系统来集中管理分散于不同地方的电子档案。中国移动公司作为通信行业的支柱企业,每个地市分公司能根据自身需要,构建统一的、标准的电子档案数据中心,可以集中、规范地管理所有的档案信息,确保数据的安全存储、高效查找与借阅,能够提高企业管理效率。本文
新媒体时代的到来,越来越多的媒体出现在公众的视角下,每天的新闻报道量也与日俱增。如何帮助读者快速了解新闻热点事件,是一个具有研究价值的课题。现在主流媒体基本采用文字、视频等非结构化的数据形式记叙新闻事件,同时新闻平台的研究热点主要是基于用户兴趣和当前热点的智能推荐。不论是搜索结果还是推荐界面,信息碎片化与非直观化问题突出,对于新闻核心信息的提炼与结构化处理不足,因此无法高效的将热点新闻的核心信息传
作为21世纪重要的信息采集技术之一,无线传感器网络(Wireless Sensor Network,WSN)技术为人类获取物理世界中各种目标信息提供了基础支撑。传统WSN受制于电池供电节点的续航能力,难以长期有效运行,限制了WSN的广泛应用。近年来,国内外研究学者相继提出了能量收集型无线传感器网络(Energy Harvesting Wirlesss Sensor Network,EHWSN)技术