基于深度学习的自动文本摘要技术研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:cbladerunner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,众多自媒体APP喷涌而出,大大丰富了人们的生活,但与此同时也积累了海量的文本信息。自动文本摘要技术能从繁杂的文本中提取出主旨信息,过滤无关内容,提升人们的工作效率。目前,序列到序列(Seq2Seq)模型成为自动文本摘要技术中的主流研究方向之一。Seq2Seq模型由编码器和解码器两部分所构成,它能够灵活地处理输入输出数据,应用非常广泛。虽然Seq2Seq模型在文本摘要领域中取得了一定的突破,但还有一些问题值得关注和研究。例如,关键词表示不全、单词或语句重复生成、未登录词、曝光偏差等问题。本文针对以上问题,提出一种基于关键词替换的多头注意力机制Seq2Seq模型,和基于改进注意力机制与强化学习的Seq2Seq模型生成方法。主要工作分为以下两部分:(1)实现了一种基于关键词替换的多头注意力机制Seq2Seq模型。主要内容包括:多头注意力机制,模型通过多头注意力机制建立编码器和解码器之间的联系,能够学习到文本在不同空间中的特征信息,解决了长距离依赖问题;关键词替换,该方法利用基于词向量的Text Rank算法对源文本进行关键词的提取,生成一个关键词集,而后对前面模型生成的摘要进行关键词替换,以形成最后的生成摘要,解决了关键词表示不全的问题。最后在万方科研数据集上进行实验,实验结果验证了模型的有效性。(2)实现了一种基于改进注意力机制与强化学习的Seq2Seq模型。主要内容包括:改进注意力机制,编码器采用编码内部注意力关对历史注意力高的部分进行惩罚,解码器采用解码内部注意力对历史预测出的单词进行惩罚,避免当前时刻生成新单词和前面有重复,解决了单词的重复生成问题;指针生成机制,通过使用指针生成器计算指针概率,再依据指针概率决定从输入文本中选择已有单词,还是从固定的词汇表中生成单词,缓解了未登录词出现的问题;强化学习,把生成摘要模型当成智能体,将输出生成摘要作为动作,将生成摘要与输入参考摘要对比的Rouge得分作为奖励,并采用策略梯度方法反复训练生成摘要模型。解决了曝光偏差问题。最后在LCSTS数据集上进行实验,实验结果验证了模型的有效性。
其他文献
目的:本文旨在研究动眼神经鞘瘤(oculomotor nerve schwannoma,ONS)的临床特点,并探讨ONS患者的预后相关因素及治疗方法的选择。方法:通过文献检索收集116例ONS患者的一般资料及临床资料,以及1例本中心诊治的ONS患者进行回顾性分析,归纳整理ONS患者的流行病学及临床特点。通过单因素分析等统计方法,研究影响预后的相关因素,并以此探讨治疗方式的选择。结果:本研究共纳入1
学位
目的:通过回顾性分析是否合并无症状脑梗死(Silent brain infarction,SBI)在首发症状性脑梗死患者中的差异,探究无症状脑梗死在首发症状性脑梗死患者中的患病率、TOAST病因学分型、危险因素等方面的特点及其临床意义,以期更好的指导临床对无症状脑梗死的认识、预防及治疗。方法:本研究将2020-2021年期间至我院入院的急性脑梗死的患者作为主要的筛选对象,选取首发症状性脑梗死患者2
学位
目的:探讨早发型子痫前期(early-onset preeclampsia,eo PE)与晚发型子痫前期(late-onset preeclampsia,lo PE)患者外周血及胎盘滋养细胞线粒体融合蛋白2(mitofusin,Mfn2)的表达,初步确定该基因可能作为子痫前期的诊断和治疗靶点;探讨eo PE与lo PE两时期Mfn2的表达有无差异,为探讨两者之间发病机制提供实验数据。方法:1.收集
学位
目的:比较腹腔镜下经自然腔道取标本与腹腔镜下小切口治疗结直肠癌的临床疗效差异,以期为临床结直肠癌手术方式的选择提供指导和依据。方法:选取2019年1月至2020年12月于吉林大学中日联谊医院胃肠结直肠肛门外科住院的确诊为结直肠癌且符合纳入标准的患者共57例。对57例患者资料进行回顾性分析,根据患者选择手术方式不同进行分组,其中NOSES组30名患者接受腹腔镜下经自然腔道取标本手术治疗,小切口组27
学位
随着人工智能的快速发展,机器视觉技术在我们的生活和生产中应用的越来越广泛。针对盲人因视觉受限,难以及时、准确地感知周围环境的问题,本文提出利用机器视觉技术获取距离、目标信息的方法来便捷盲人的日常生活。本文将双目测距技术与目标检测技术相结合,可快速、准确地检测出盲人前方的物体种类,并计算出物体与盲人之间的距离。具体研究内容如下:一、研究相机成像原理及标定方法。首先确定了相机成像模型中的四个重要坐标系
学位
目的:对比择期腹腔镜全子宫切除术患者应用羟考酮或舒芬太尼超前镇痛的效果。方法:选取吉林大学中日联谊医院2021年择期全麻下行腹腔镜全子宫切除术的患者60例,将60例患者随机分为羟考酮组(O组)、舒芬太尼组(S组),每组30例,术前评估患者情况。两组患者年龄30-60岁,体重指数(BMI)20-30kg/㎡,ASA分级I~II级,疼痛敏感性量表评分4-6分,手术时间、术中失血和病情等基本资料相仿。两
学位
背景:胶质母细胞瘤是神经系统最常见的高度恶性胶质瘤,预后不良,经肿瘤手术、放疗、化疗等综合治疗后,平均生存时间仅为18个月,肿瘤的复发、耐药均是预后不良的主要原因,多药物、多治疗方案联合应用的管理方法可能成为延长胶质母细胞瘤患者生存期的有效手段。脂肪抑制素最早作为甾醇调节原件结合蛋白(SREBPs)的特异性抑制剂应用于研究代谢综合征,后被发现可通过依赖或不依赖SREBPs的途径抑制多种肿瘤。不依赖
学位
我国地域辽阔,文化发展繁荣昌盛,独特的非物质文化遗产种类繁多。凤阳花鼓非遗文化在滁州旅游文化产业中,传承发展至今日,承载着人类的生活印记,是历史留给人们的宝贵财富,为设计文创产品提供了良好的客观条件及基础。本文开展凤阳花鼓视觉元素文创产品及包装设计的研究,探析文化创意产品及包装的开发设计实践。逐一概述凤阳花鼓非遗文化特色及形成原因,并详细介绍了凤阳花鼓非遗文化起源萌芽及发展融合,为凤阳花鼓非遗文化
学位
背景及目的:胰十二指肠切除术(pancreaticoduodenectomy,PD)是在1935年由名叫Whipple的一名美国外科医生首先用来治疗壶腹周围癌的手术,因此又被称为Whipple手术。Whipple手术是治疗壶腹周围恶性肿瘤、癌前病变和部分良性疾病的标准术式,手术的操作相对来说很复杂,对病人机体的伤害比较大,并且术后可能出现的并发症比较多。微创外科蓬勃发展,腹腔镜下开展的PD在国际上
学位
随着人机交互技术的进步和社会经济的发展,智能机器人在我们的日常生活中发挥着越来越重要的作用。其中可直接与人互动交流、服务于人类的语音机器人,更是走进了千家万户,它们被广泛应用于智能家居、智慧交通和智慧医疗等领域。对于一些特定的应用场景,比如家庭陪伴,要求语音机器人外观小巧精致,体积不能过大,还得具备一定的负重能力,保证机身内部能容纳下电机和电池等必要零件。由于机器人的外形壳体是内部空间的反映,在容
学位