基于预训练语言模型的中文文本摘要生成研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:hao8035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,更多的人依靠网络获得所需要的资讯,比如用户点评、新闻报道、博客等各类社交媒体,但这种文本资料中存在着巨大的冗余数据,如何对这些文本资源进行处理就变得尤为关键。如果纯靠人工对每个文本资源进行分析然后生成文本摘要,需要花费大量的资源,甚至是一件几乎不可能完成的任务。自然语言处理领域的自动文本摘要技术为解决这个问题提供了思路。预训练语言模型通过训练大规模的语料库使其学习到语言的通用规律,再通过具体的下游任务相关语料进行训练使其符合下游任务要求。本文通过分析各预训练语言模型的特点,将其运用于中文文本摘要生成任务上,主要研究内容如下:(1)构建基于Seq2Seq结构并结合指针生成网络和强化学习的中文文本摘要基线模型。目前基于Seq2Seq结构的中文文本摘要模型还存在着暴露偏差的问题,导致其文本摘要模型表现效果欠佳。本文设计实现了基于Seq2Seq结构并结合指针生成网络和强化学习(PGN+RL)中文文本摘要模型。将传统语言模型的损失函数与强化学习的损失函数进行加权,减少暴露偏差带来的问题。实验表明,本文构建的PGN+RL文本摘要模型能有效提升模型生成质量,并将其作为本文的基线模型。(2)构建基于各预训练语言模型的中文文本摘要。通过对多个预训练语言模型进行研究,本文将各预训练语言模型应用到中文文本摘要生成任务中。在LCSTS数据集上进行实验并生成摘要实例进行对比,实验结果表明基于GPT-2与Uni LM的中文文本摘要模型与基线模型相比表现较好,基于BERT与ERNIE-GEN的中文文本摘要模型生成摘要的结果表现较差。(3)构建基于GPT-2改进的中文文本摘要模型。通过在编码阶段和数据预处理阶段对GPT-2预训练语言模型进行改进,提高GPT-2预训练语言模型在中文文本摘要生成任务上的性能。与基线模型以及其他预训练语言模型在数据集LCSTS上对比,实验表明本文的改进模型在ROUGE评分上达到最佳,通过对比模型生成摘要实例,表明本文的改进模型在生成摘要的可读性、连贯性以及包含句子完整性上表现更好,验证了针对模型改进的有效性。最后对比各模型在新的中文文本摘要数据集NLPCC上的表现,进一步验证本文提出的模型具有一定的泛化能力。综上说明了本文针对GPT-2预训练语言模型进行改进能够使其更好地应用于文本摘要任务中,并能进一步提升模型生成摘要质量。
其他文献
青岛市全民篮球联赛是响应《“健康中国2030”规划纲要》和《全民健身计划(2021-2025年)》国家战略而举办的业余篮球赛事,它起始于2016年9月,经过五年的运营与发展,深受青岛地区篮球爱好者的喜爱,该联赛是青岛市业余篮球比赛的主要开展形式;是显现当地篮球运动水平的重要窗口;是体育赛事产业发展的重要表现。青岛市全民篮球联赛起步时间短,存在经验、质量不足;联赛未体现全民性;宣传的广度、深度不充分
学位
传统无机硅酸盐涂料使用水作为主要的分散剂,涂层固化过程中收缩较大,容易出现裂纹,同时受可溶性离子影响,耐水性能差。在本文中,以硅酸钠、硅酸钾作为主要成膜物质,制备有机-无机复合涂层、无机涂层,用以解决硅酸钾和硅酸钠涂层脆性较大,容易出现开裂、耐水性差、耐腐蚀性差等问题。(1)将硅酸钠和自制硅酸钾作为成膜物质,添加玻璃粉以及其它助剂,制得自固化硅酸钠-硅酸钾无机水性涂料。研究不同SiO2/K2O摩尔
学位
中国旅游业已进入快速发展阶段。旅游形象感知已成为影响当地旅游业发展的最深层次因素之一。旅游形象感知是对旅游目的地特色的独特反映,可以为旅游政策的制定和旅游目的地的未来发展提供参考和指导。因此,旅游形象感知的定位对提高旅游竞争力起着非常重要的作用。文章从游客视角出发,利用用户生成内容(User Generated Content,英文简称UGC)文本为研究对象,对深圳市的旅游形象进行感知研究,构建深
学位
近几年区块链技术飞速发展,由最开始单一的数字货币应用,到如今的金融业、工业、教育、城市治理、食品和电商等多个应用领域,区块链技术被深入研究和探索。区块链系统的建立离不开底层技术的支持,而共识算法的效率会影响整个系统的安全性和实用性,决定了区块链的应用方向。因此,设计高效的共识算法对提升区块链系统的性能及保障信息的安全具有重要意义。本文对区块链共识算法性能及应用进行了研究,首先,提出了基于动态分级的
学位
生物医学组织工程技术有助于解决组织和器官的损伤、疾病或丧失等问题,并且与传统医学相比,具有副反应少,安全性高等优点,因此具有广泛的临床应用前景。由于亲水性和类细胞质基质等理化特性,水凝胶广泛应用在皮肤组织工程、骨组织工程或其他组织工程中。壳聚糖是一种天然多糖,拥有大量活性基团,具有良好生物相容性、生物降解性能和抗菌性能。然而壳聚糖只能溶于弱酸中,且其抗菌性有限,这在很大程度上限制了壳聚糖水凝胶在组
学位
近年来,由于纳米改性技术的不断发展,新型纳米改性技术在涂料领域的应用取得了极大的进展,其在水性防腐涂料中的应用也得到了长足的发展。纳米氧化锆具有优异的耐化学品性和耐蚀性能,是一种典型的热稳定性和化学稳定性的材料,将纳米氧化锆与其他材料进行复合可极大的提高复合材料的性能参数;纳米氮化硼具有和石墨类似的片层状结构,同时兼具优秀的介电性能和耐蚀性能,因其优异的高导热性,其在热导材料的应用较为广泛,其在抗
学位
随着新一代网络信息技术的迅速发展,信息资产的数量、企业数据的规模呈爆炸性增长,企业内部人员很难全面地了解资产的信息及业务系统当前的安全状况。虽然目前各企业购买大量安全产品,诸如WAF、防火墙等已进入常态化,但是传统的网络安全设备仅能提供网络级别的防护,无法发现和识别攻击者专业、灵活、多样的应用层攻击。为了尽早发现网络中的安全隐患,降低可能产生的影响和损失,漏洞检测技术应运而生。它模拟攻击者的攻击手
学位
随着大数据技术的普及应用,各行业中数据量都呈爆炸式增长态势,越来越多的数据需要被安全有效存储来供用户使用。传统的基于中心化的数据存储模式面临着存储成本高、存取效率低下以及易被攻击导致数据被篡改或破坏等问题,已经无法满足对数据实现安全、稳定、可靠的存储需求。区块链技术可以实现在不需要第三方信任机构的情况下,将数据存储达到去中心化、可信、难以篡改的目的,区块链的出现为数据可信存储提供了可行的解决方案。
学位
随着职业教育的发展,职业院校学生活动也越来越受到关注,是职业院校建设发展水平的重要体现。根据目前对潍坊S学院迎新晚会的成本管理分析,发现其中存在成本管理方式与精细化的生产经营管理理念背道而驰、设计变更成本监管不规范、缺乏设计意识、缺乏归档意识等问题。基于上述问题提出将挣值法应用到其迎新晚会成本核算中,应用这一方法对潍坊S学院迎新晚会成本管理的应用基础进行了分析。本文结合挣值法的一般步骤和潍坊S学院
学位
随着物联网和工业互联网技术的迅速发展,物联网设备的信息安全问题也日益受到人们的关注。为了保障物联网数据传输的机密性,同时更好的满足应用场景中低延迟的需求,本文在开源蜂鸟E203 MCU(Micro Control Unit,微控制单元)的基础上设计扩展了适用于AES(Advanced Encryption Standard,高级加密标准)、RSA复合加密场景的协处理器,组成了拥有安全场景扩展的RI
学位