基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法

来源 :河北农业大学 | 被引量 : 0次 | 上传用户:jiangxueying0518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
其他文献
昆虫取食行为诱导产生的半胱氨酸蛋白酶抑制剂(CPI)可导致昆虫生长发育代谢紊乱甚至死亡。鞘翅目昆虫主要利用其消化道内的半胱氨酸蛋白酶进行消化,因此从植物中寻求抗虫的CPI基因并将其转到鞘翅目害虫的目标寄主中,进而影响害虫的取食和消化,对防治鞘翅目害虫具有重要价值。本课题组前期已获得杜仲半胱氨酸蛋白酶抑制剂基因(EuCPI),通过初步抗虫活性测定,明确其对鞘翅目害虫具有显著的延长发育历期,降低产卵量
学位
畜牧业是我国国民经济的重要组成部分,随着畜产品种类和产量不断增加,我国农业和农村经济取得了全面发展。由于羊具有繁殖率高、生长发育快、适应性强、易于管理等优点,羊养殖产业也取得了较快发展,其养殖方式由分散养殖逐渐转变为专业化、规模化、标准化的养殖模式。在羊养殖过程中对哺乳期的羊只管理十分关键,不当的管理会影响母羊的健康状况、降低小羊的存活率、甚至会影响经济效益。通过计算机视觉监测母羊的哺乳姿态,了解
学位
番茄是世界上需求量最大的蔬菜之一。然而受环境等不可控因素的影响,番茄病害频频发生,这严重危害了番茄的高产稳产,如今番茄病害已经成为番茄产业发展的障碍,给农民带来了很大的经济损失。人工识别的方法具有主观性,不确定性和盲目性,不但无法准确识别番茄病害,而且无法对番茄进行及时准确的救治,从而影响了番茄的产量和质量。因此,寻找一种准确高效快速的番茄病害检测方法是解决病害问题的关键所在。本文以番茄枯萎病、灰
学位
本文旨在研究红棕油对樱桃谷肉鸭生长性能、肠道发育及抗氧化能力的影响。选取1日龄健康、体重为(50±2.21)g的樱桃谷肉仔鸭640羽,随机分为4组,每组10个重复,每个重复16羽,公母各半。对照组饲喂含0.45%棕榈油的基础饲粮,红棕油组分别用0.15%,0.3%,0.45%红棕油等量替代基础饲粮中的棕榈油,试验期为42 d。结果表明:1)在1~21d阶段,与对照组相比,0.3%红棕油组采食量最高
学位
桃作为我国传统的水果,具有品种多、种植面积大的特点。近年来,国家对桃种质资源的保护、开发与利用愈加重视,许多研究机构争相建立桃种质资源库。但是桃种质资源收集工作以野外为主,存在识别桃品种依靠主观判断、工作强度大且易误判以及为提高准确率而依靠十分专业的园艺知识和贵重仪器等问题,导致桃种质资源库建设缓慢。为此急需研发一种智能识别桃品种的方法。本文所研究的桃品种识别技术,具有重要的理论意义和实用价值。本
学位
农作物在自然生长过程中往往会受到逆境胁迫的影响,比如干旱、盐碱、水涝等非生物胁迫和杂草、病菌、虫灾等生物胁迫,这些逆境胁迫对农作物的产量和质量造成严重影响。农作物在逆境胁迫下可以通过调控相关抗逆基因的表达,调整自身的状态以适应不利环境。基因芯片和转录组测序技术可用来获取农作物逆境胁迫下基因的表达数据,通过农作物基因表达数据挖掘逆境胁迫关联的候选基因,利用分子育种技术改良农作物的抗逆性状,可加速抗逆
学位
随着我国蛋鸡养殖规模的不断扩大,蛋鸡饲养模式的自动化程度也需要随之不断提升。蛋鸡的鸡冠形态变化直观反映着蛋鸡的发育情况和健康状况,是选育高产蛋鸡的重要参考指标之一,但目前关于蛋鸡鸡冠形态与产蛋性能关系的研究不足。在实际生产中,对于蛋鸡体重和鸡冠形态的监测多采用传统的人工方式,存在效率低下,且易造成蛋鸡应激反应的问题。针对这一现状,本文以罗曼灰蛋鸡作为研究对象,进行了基于图像处理的蛋鸡鸡冠形态与产蛋
学位
玉米大斑病(Northern corn leaf blight,NCLB)是由大斑病凸脐蠕孢(Setosphaeria turcica)引起的真菌性病害,是玉米生产中重要病害之一。当前玉米大斑病防控仍以杀菌剂为主。然而,大多数杀菌剂特异性弱,对各种非目标生物具有毒性;且病原真菌易对杀菌剂产生耐药性。构建绿色杀菌剂的高通量筛选系统是玉米大斑病有效防控的基础。附着胞是玉米大斑病菌侵染寄主的特化结构,也
学位
黄瓜是我国重要的蔬菜之一,各地种植广泛,市场需求量大,经济效益好。特别是随着温室大棚培养技术的发展使得黄瓜可周年生长,其种植面积和产量更是有了较大的提升。但是黄瓜生产周期长,病害较多,如不及时防治,往往会对黄瓜产量和品质造成重大损失。传统的病害识别方法严重依赖于分子分析或植保人员的观察。然而,前者复杂且局限于实验室环境,而后者耗时且容易出错。针对不同病害严重程度如不合理的控制用药量,容易导致食品安
学位
随着多能源市场化交易机制的不断完善,综合能源服务逐渐进入人们的视野,国家电网公司明确提出了综合能源服务的具体业务范畴。在市场和政策的激励下,参与多能源生产交易的综合能源服务商应运而生。综合能源服务商一方面可以整合电、气、热多种供应侧能源进行管理与销售,另一方面可以聚合需求侧资源进行统一调度,实现供需两侧的资源平衡。当综合能源服务商作为独立运营商时,可以通过提高新能源的消纳、调控负荷、时序电价和签约
学位