面向长文本的两阶段自动摘要算法关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:yoyomai19781022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。文本相似度的计算方法可以极大地影响文本自动摘要评价方法的准确率,如果能够有效改进文本相似度计算方法,将会显著提高摘要系统的整体性能。针对现有文本相似度计算方法不能兼顾字符层面和语义层面相似度的弊端,本文结合文本编辑距离和句子向量提出了一种新的混合文本相似度计算方法,该方法全面地度量文本之间的相似程度,提高了文本相似度计算的准确率。针对现有的基于循环神经网络编码-解码结构的生成式文本摘要方法在处理长文本的过程中,由于梯度消失的问题导致准确率低,无法达到令用户满意的性能效果的问题,本文提出一种新的面向长文本的两阶段的自动摘要方法,该方法将摘要过程分成关键句抽取和摘要生成两个阶段。关键句抽取阶段应用混合文本相似度计算方法改进了基于图模型结构的Text Rank算法,提高了文本抽取的准确性。摘要生成阶段利用上一阶段得到的关键句,在循环神经网络编码-解码结构的基础之上设计添加了注意力机制和指针机制,从而构建了一个摘要自动生成模型。评测方法的发展和文本自动摘要技术的进步是相辅相成的,高质量的自动评测方法是文本自动摘要技术有着更长远发展的基础。本文深入分析现有的文本自动摘要技术评价方法,发现外部评价方法和内部评价方法都存在没有考虑语义相似度的问题,为此,本文提出了一种新的基于混合文本相似度的评价方法,弥补了对语义相似度度量的不足。鉴于制约生成式文本摘要技术发展的最大瓶颈就是缺少高质量的大规模数据集,本文通过自主构建的爬虫代码对2010~2017主流媒体网站的财经版块新闻获取了大量数据。通过进一步对数据的处理与分析构建了一个高质量的大规模财经领域中文长文本数据集。在该数据集上完成实验,验证了本文提出的两阶段自动摘要方法的有效性,将结果在ROUGE和HTS指标下和目前流行的几种自动摘要方法作对比,效果明显改进,相对于基准RNN方法,在HTS指标下分别提升了25.8%(word)和20.1%(char)。
其他文献
摘 要:目前,我国对学前教育不断进行改革,尤其是对学前教育中美术教育的探究正处于最关键的时期。美术教育对学前幼儿有非常大的影响,其能够培养幼儿敏锐的观察能力和创新性思维,提高幼儿的自主学习能力。笔者对目前学前美术教育在发展过程中存在的问题进行深入分析,并提出相关的解决对策。  关键词:学前教育;美术教育;实践与思考  一、美术教育在教学过程中存在的问题  1.美术教材的内容没有及时更新  在学前教
义务教育语文课程标准明确指出,要让学生“能主动进行探究性学习,激发想象力和创造潜能,在实践中学习和运用语文”.爱因斯坦曾说过:“想象力比知识更重要,因为知识是有限的,而
本刊讯近日,上海市第六人民医院临港新城医院在浦东新区临港新城环湖西三路海港大道挥锹开工,这是该市新的卫生资源总体规划中第一个正式开工的项目,标志着上海市“5+3+1”工程的
摘 要:教学管理关系着学校教育教学工作,如果教学管理出现问题就会造成学校教育教学质量的下降,不利于现代教学的发展。鉴于此,本文主要就如何实施现代化教学管理进行简单的探讨,希望通过笔者的努力,找出优化我国教学管理的有效途径,促进我国学校教育工作水平不断提升。  关键词:学校;现代化教学;教育改革;以人为本  教育改革已经成为我国教育教学发展的大趋势,全国各级院校都在积极进行着内部的创新与改革工作。通
战术互联网技术是数字化部队战术指挥控制系统的主要支撑技术之一。基于战术互联网研究现状,详细讨论了战术互联网所涉及的分群、信道接入控制、路由协议以及信息处理等问题,
三角托架为悬臂浇筑连续梁0号块广泛采用的临时结构形式。三角托架与桥墩预埋件的连接方式主要有两种:焊接与铰接。为了研究三角托架不同结构体系的受力性能差异,以某高速铁
近年来,随着云计算技术及其应用的迅速发展,云数据中心的数量和规模都大幅度增加。与此同时,云数据中心的高能耗问题也愈发的严重。因此,数据中心的能耗管理逐渐成为云计算领