基于深度学习的自动文本摘要技术研究与应用

来源 :中国科学院大学(中国科学院沈阳计算技术研究所) | 被引量 : 0次 | 上传用户:adroithy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的四十多年改革开放政策的影响下,中国的社会发展迅速。特别的是,在上世纪九十年代,中国引入了互联网技术,这就更加丰富了人们的社会文化生活。人们可以通过上网冲浪的方式获取到各种各样的信息。但是互联网每天都有海量的信息数据产生,在这些大量数据中只有极小部分才是我们需要的信息。如何从这些海量的数据中,过滤多余和无效的信息,快速并准确的获取对自己有用的信息,是需要耗费大量成本的事情。人们也在想方设法的节省获取信息的成本。经过大量科学家和研究者的共同努力,自然语言处理领域发展迅速,自动文本摘要技术也逐渐走入大众的视野。文本摘要技术通过对文本的结构、文本的特点进行分析研究,从而提取若干文本的中心句构成文本的摘要,或者通过对文本的词法、语法、语义等进行学习和训练,理解原始文本的表达含义,进而生成能够概括原始文本的句子摘要。本次研究从项目服务对象出发,根据服务对象多为老年人的特点,提出使用文本摘要技术对项目中涉及的新闻和文章等信息进行处理。将这些长文本信息生成对应的文本摘要,进而能够提高服务对象获取信息的速度,节约获取信息的各项成本。本文研究过程中学习一些前人经典的思路和想法,深入学习了一些经典模型的执行流程和总体思想,对比了各个模型间的优点和不足。对于自然语言处理任务,一般分为第一阶段的上游词向量处理和第二阶段的下游具体任务微调。本文研究的主要创新点有以下几点:第一,在词向量处理过程中,通过改进经典模型的掩码策略来提升模型的效果。第二,根据项目使用的语料环境特点,把词向量的处理过程使用另外的模型进行替换,让本来使用于英文环境的生成式预训练模型能够处理中文语料环境的任务。第三,通过微调和改进现有的生成式预训练模型,让模型能够处理不同长度的文本数据。最后,挑选了合适的中文数据集进行一系列的实验验证,在短文本和中长文本数据处理中取得了良好的效果,但在超长文本数据处理效果上还有很大的进步空间。总体上来说,使用改进后的模型能够满足本次研究的任务功能需求。
其他文献
随着计算机技术的迅猛发展和社交媒体的广泛普及,散布在互联网平台上的数字图像和文字呈爆炸式增长。网络文化在给人们的生活提供信息和带去方便的同时,也肩负着巨大挑战。越来越多的不良信息逐渐隐匿在网络世界的各个角落,极大的危害着国家的信息安全、社会治安、以及人们尤其是未成年人的身心健康。除了从根源消除外,对于已散布在网络上的不良信息和图片,国家安排专门的人员对其进行人工核验、消除或者打码,但是工作量过于庞
学位
<正>营商环境建设是社会软环境建设的重要组成部分,优化营商环境对于区域经济社会发展具有重要作用。本文结合检察工作实际,对优化营商环境工作的专业化建设路径提出相关建议。一、当前营商环境建设中的问题一是护航企业发展的大局意识不强。部分检察人员主动服务、靠前服务意识不强,对新时代检察司法理念、
期刊
在纺织领域中,布匹的质量检测是产品生产链中的重要环节。由于生产设备的局限,布匹表面往往会出现沾污、破洞等疵点。传统的检测方式是人工检测,但这种方式存在着劳动强度大、检测精度低、检测速度慢等问题。随着人工智能的发展,在布匹瑕疵检测中使用计算机视觉代替人眼来解放劳动力、提高生产效率,是必然的发展趋势。而目前的目标检测算法对于疵点这类小目标的检测效果并不理想,因此,本文提出了一种基于深度学习的小目标疵点
学位
物联网通过网络连接物与物,然后通过数据收集、分析和自动操作等创造新价值,而工业物联网就是产品、传感器、生产设备等通过无线或有线网络连接。工业物联网提出以后,制造业、物流、石油、天然气、运输等多个行业都开始将其目光投入。而工业中主要产生的是时间序列,对工业时间序列进行分析可以探索数据,以此提高产品质量、避免事故和减少环境影响。更加重要的是,分析结果提供可操作的见解,使工程师在做出更明智、更受数据驱动
学位
随着新课改的不断推进,教育部对于学生的数学核心素养的要求不断提高.学生既要拥有扎实的数学基础知识,又要拥有较强的数学学习能力.在新高考改革之下,学生的数学抽象能力、逻辑推理能力、数学建模能力、数学运算能力、直观想象能力、数据分析能力被列为重点考查的项目.函数作为高中数学知识的重要组成部分,具有很强的抽象性和逻辑性,对学生的数学学习能力提出了一定的要求.因此,以函数为依托考查学生的数学学习能力,对培
期刊
函数思想是高中常用的数学问题解决方法之一,通过函数思想的应用能够让学生更加快速准确地解决数学问题.所以在进行数学解题教学的过程中,教师需要对教学方式进行转变,采用多元化的教学方式来进行高中数学函数的解题教学.通过这样的方式来培养学生的创新能力和探索能力,从而激发学生的学习兴趣,主动去分析数学问题,寻找解题思路,有效地提升学生的学习效率.本文将通过举例的方式来对高中数学函数解题思路的多元化方法进行分
期刊
转动轴对中检测做为工业生产中大型机械设备精密检测的重要一部分,其传统的检测方法检测速度较慢、检测精度不高、对检测人员的检测水平要求严格;而新型的激光检测法又有着高昂的价格,这些都制约着工业生产中轴对中检测的工业成本。随着我国向工业强国迈进,提高转动轴对中检测的精准度和速度、降低测试人员的使用门槛成为了提升工业水平的重要一环,也是展示我国工业水准的重要标准。基于以上背景,结合工业自动化生产要求,本文
学位
在机械作业中使用滚动轴承进行工业生产的时候,滚动轴承是经常发生故障的零部件,滚动轴承在发生故障的时候,由于轴承的振动信号不稳定,信号呈现非线性的特点,这使得当前有的一些滚动轴承故障诊断系统或者诊断方法存在对原始信号提取能力弱,识别滚动轴承信号能力差导致最终导致诊断结果和预期结果有很大差距。为了增强故障诊断系统的智能性和准确度,提高系统泛化能力使之可以适应工厂大数据故障诊断的需求。本文针对这样的情况
学位
心电图是临床上检测心脏病最直观、最快速的方法。早期的心电检测都是使用信号学的相关算法进行工作,通过将原始的心电信号变换来得到它的关键特征,将拿到的特征与已经建立好的疾病种类库比对以得到相应的心脏病类型。上述的心电异常检测方法具有对心电信号的波形完美、关键信号获取不足等缺点。机器学习算法的兴起在很多方面解决了传统信号学检测心电异常的弊端。Deep CNN具有能够在多维度获取ECG模糊信息的特点,循环
学位
数字化管控模式已成为热处理车间实现提质增效的重要创新方式,热处理数字化管控系统数据分析平台是实现热处理车间数字化、智能化中的重要一环。本课题通过对热处理制造过程数字化建设开展研究,构建热处理数字化平台,利用数据分析方法对热处理时序数据进行分析,以识别加工状态,预测加工质量,实现数据闭环,达到提质增效的目的。本文的主要工作内容如下:首先,对目前热处理行业的数字化现状进行分析,明确数字化进程中多源异构
学位