基于深度学习的文本自动摘要技术研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:tianwang800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这是一个移动互联网与人工智能飞速发展的时代。移动互联网的蓬勃发展变革了信息的生产、传播和消费方式。在供给侧,大量的信息不断产生,在需求侧,消费者对短文本偏好不断增强。文本摘要的需求前所未有的迫切。深度学习引发了新一轮人工智能技术的发展,在机器翻译等领域取得重大突破,深度学习技术也被用来实现传统方法很难完成的文本生成任务,文本摘要就是其中之一。是指给定长文本,机器自动生成简洁且保留原意的短文本作为摘要。根据摘要中内容来源不同,文本摘要的实现方法主要分为抽取式和生成式两种。抽取式摘要是在原文本中抽取片段进行组合。生成式摘要是产生的摘要中有与原文中不同的新词。两种方法各有所长:抽取摘要实现较为简单,但是生成结果不精简;生成式摘要结果更精炼,但是可能包含语法错误或内容事实性错误。为了提高生成式摘要的质量,研究者引入了各种各样的拷贝机制,这使得生成式摘要表现出了隐式的抽取特征。因此,研究者开始采用两段式的方法完成文本摘要,先从原文中抽取句子,再对抽取结果做进一步处理,可以分为“抽取-压缩”、“抽取-改写”等方式。方法同时也是对人类摘要过程的模仿。我们在实现文本摘要时也采用两段式的策略:先在原文中筛选出关键句,然后对关键句进行改写产生摘要,构建出抽取式与生成式相结合的两段式摘要模型。本文中所做的工作有:1、在实现方法上,通过“抽取-改写”的两段式模型实现文本摘要,先通过抽取阶段从原文中抽取摘要候选句,然后通过改写阶段对候选句进行改写产生最终摘要;2、在实现技术上,基于自然语言处理领域的最新突破预训练语言模型修改实现抽取模型和改写模型;3、在英文数据集CNN/Daily Mail和中文数据集NLPCC上对模型训练评测,利用自动指标ROUGE评价模型效果,与基线模型相比平均ROUGE得分提高2.85分和4.76分,证明了本文模型的有效性,利用人工评测方法辅助评价,证明本文方法生成的摘要可读性更强。
其他文献
随着我国大规模的铁路建设尤其是高速铁路建设的推进,需要新建和改造大量铁路客运站。在实践过程中,铁路客运站站房设计不断优化,通常,客运站设计者会从客运站规模、站房组合模式、雨蓬与站房组合关系、站房结构构造形式、审美取向、文化地域性等方面考虑客运站站房体量设计。然而,依据这些因素新建的铁路客运站站房候车厅往往体量巨大,在实际使用过程中常出现客运站候车厅物理环境不佳的问题,如候车厅能耗过高、光照控制不合
随着工业系统与互联网的持续融合,在工业互联网网络体系中,底层网络与上层设施之间的互联互通显得愈发重要。OPC UA(OPC Unified Architecture,OPC统一架构)是一个面向工业通
微地震监测技术是利用检测地层中所发生的微地震事件,通过对这些微地震事件的反演解释,从而确定发生这些微地震事件的具体位置。气田水回注是天然气生产必不可少的一个重要环
目前国外大型餐饮业及食品加工厂一般采用集中处理的热氧焚烧法治理油烟污染,中小型餐饮业多采用催化剂净化法处理油烟废气。而国内餐饮业油烟净化的研究尚处于初级阶段,按照
操作系统是计算机系统的底层软件,进程是操作系统对程序进行资源分配与调度的基本单位,操作系统中涉及进程控制与管理的部分被称为进程子系统。进程子系统的性能直接决定计算
J-TEXT装置电子回旋共振加热(electron cyclotron resonance heating,ECRH)系统运行参数为105GHz/500kW,阳极电源是ECRH系统中回旋电子束形成的不可缺少的重要组成部分。本文基于TMS320F2812型号DSP(Digital Signal Processor)控制芯片,设计了阳极电源的控制系统。从105GHz回旋管的阳极电压超调量、稳定度等供电
双有源桥式变换器(Dual Active Bridge,DAB)这类拓扑凭借结构比较简单、功率密度较高、可实现软开关、能量双向流动等优势,已在电动汽车领域得到广泛应用。因此,深入研究该类拓扑的潜在优势,并努力提升其传输效率和功率密度,对提高能源利用率、减少不可再生资源消耗有着重要的意义。本文首先给出了双有源桥式变换器的应用背景及研究意义,对该类变换器的典型拓扑及经典控制方式进行了简要介绍;然后总结
胃肠道疾病是当前人类的高危疾病,目前胃镜和肠镜检查是胃肠道疾病的主要诊断途径,该方法采用的插管、吹气等手段可能会给患者带来极大的不适。随着机电一体化和生物医学工程
多丽丝·莱辛是2007年诺贝尔文学奖获得者,且被誉为继弗吉尼亚·伍尔夫之后最伟大的英国女作家,她的作品集中表达了对女性、殖民、种族、冷战和霸权等当代社会和政治问题的深切关注。太空五部曲《南船座中的老人星:档案》是莱辛从传统现实主义小说大胆转向科幻创作的成功标志。《三四五区间的联姻》是其中的第二部,主要讲述拥有不同文化背景、意识形态和思维方式的两个代表性人物,受神谕启示被迫联姻的故事。国内外对《三四
托卡马克是目前最有希望实现受控核聚变的实验装置之一,托卡马克装置的等离子体控制系统是进行深入物理实验的基础,主要对等离子体的各项参数进行实时控制,涉及到多种控制算法和多个子系统之间的协调运作,不同的子系统之间具有很多相同之处,为了提升控制系统的开发效率,增强软件的可维护性和可扩展性,JTEXT计算机团队开发了J-TEXT实时软件框架(JRTF),并且基于JRTF框架开发了第三代等离子体控制系统,开