基于预训练模型的文本表示优化方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:zbczbczbczbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的表示学习是很多自然语言处理任务的基础,文本表示的质量也直接影响了下游分类、生成等任务的表现。从简单的独热表示、词包表示,到静态词嵌入以及有监督文本表示学习,文本表示方法已经取得了一系列的进展。近年来,以BERT为代表的基于Transformer结构的预训练语言模型在各类自然语言任务上取得了显著的进步,已经成为了提取文本表示的默认选择,得到广泛应用。但最新研究表明这类预训练语言模型提取的文本表示存在各向异性问题,即文本表示在不同方向上的分布极不均匀,这使其词相似度和文本相似度的计算准确性较低,影响文本表示在下游任务上的表现。本文分别针对预训练语言模型的词表示和句表示进行研究和改善。1.针对预训练词表示存在的各向异性问题,提出基于权重地去除词嵌入主导方向的方法进行改善。通过测量BERT预训练模型词嵌入的平均余弦相似度等几何特征,并分析其主成分方向投影和奇异值分布,发现BERT预训练词嵌入存在不同方向上的非均匀分布,导致词向量的表示能力受到损害。因此,本文提出了有权重去除BERT词表示中的主导方向来解决该问题,每个主导方向对应一个可学习权重来确定该方向去除的比例,通过在词相似度任务上学习调整这些权重。实验表明本方法缓解了词向量的各向异性问题,并提升了其在词相似度、词类比和文本语义相似度三个标准评估任务上的表现。2.针对预训练模型句表示存在的各向异性问题,提出结合模板(Prompt)技术和对比学习的方法进行改善。首先本文通过模板工程在无训练的情况下提升BERT预训练句表示在文本语义相似度任务上的表现,并分析不同模板对句向量的影响,发现标点使用对BERT模型句向量存在很大影响。基于上述分析,本文提出基于模板数据增强的无监督对比学习模型,该模型使用模板中的[MASK]符号输出层向量作为句表示,并在维基百科语料上使用归一化温度控制交叉熵损失函数(NT-Xent)进行无监督对比学习。模型在多个文本语义相似度的公开数据集上进行实验,验证了该方法对于改善BERT句表示的有效性。
其他文献
系统发育树构建是古生物系统发育分析的最终表现形式,是一个非常重要的计算生物研究领域,它帮助人类了解生物起源、进化以及未来发展方向。在古生物系统发育分析中,通常采用化石中采集到的形态学数据,根据物种的形态特征构建出一棵能够体现物种间进化关系的发育树。目前古生物系统发育分析研究正面临着以下几种问题:首先,由于化石保存不完整、物种之间的差异以及特征间存在层次关系等因素,使得古生物形态学数据中存在缺失和不
学位
图像是人们同外界进行信息交互的重要载体,由于现实生活中的图像往往比较复杂,具有多语义、多标签的特点,因此多标签图像分类任务是当前图像分类研究的重点。虽然当前基于深度学习的多标签图像分类算法取得了一定的成功,但仍面临着三个主要的挑战:第一为图像中包含多个不同尺寸的目标使得分类任务中小尺寸目标易被忽略。第二为图像中存在遮挡现象,减弱了分类网络的性能。第三则由于图像通常对应多个类别,导致输出空间呈指数型
学位
前列腺癌是当今全球男性患病率第二高的恶性肿瘤疾病,且发病率每年保持增幅态势,被称为“男性的第二大杀手”。尽早诊断前列腺癌,并且及时合理地治疗可以有效减轻病人痛苦,提高存活几率。核磁共振成像(Magnetic Resonance Imaging,MRI)作为一种无创、低成本的检测手段,现已成为放射科医生检测患者前列腺病症的重要依据,被广泛应用于临床。计算机辅助诊断技术(Computer Aided
学位
医疗保险作为保障国民健康水平、缓解家庭就医压力和提升居民就医可及性的重要举措,扩大覆盖范围和提高保障水平一直是世界各国政策制定者在医疗改革中主要推进的卫生政策。从上世纪90年代末以来,中国政府对医疗保障体系不断进行改革和完善,1998年建立城镇职工基本医疗保险制度(简称“城职保”),2003年试点新型农村合作医疗保险(简称“新农合”),2007年推行城镇居民医疗保险(简称“城居保”)。虽然新农合和
学位
根据国务院印发的《中国儿童发展纲要(2021-2030年)》,新的儿童发展纲要强调缩小儿童发展的城乡、区域、群体差距。家庭环境作为儿童生活的最重要的场所之一,备受学者们的关注。家庭居住环境、家庭经济环境和家庭关系都直接影响儿童的健康状况。本文采用1997年至2015年中国健康与营养调查(CHNS)7期调查数据,选取0-18岁儿童作为研究对象,研究家庭环境对儿童客观健康和主观健康的影响。家庭环境包括
学位
2020年我国脱贫攻坚战取得了全面胜利,进入“后脱贫时代”,巩固脱贫攻坚成果、预防规模性返贫和乡村振兴成为了新时代下我国扶贫工作的重心。风险和脆弱性仍然是造成贫困的本质。其中,便不乏由于重大疾病、意外伤害等早逝风险引起的因逝致贫、返贫现象。近几年来,生活方式、工作节奏的改变使得过劳死、猝死、癌症成为了青壮年劳动力生命终结的重要诱因之一,早逝风险严重威胁着家庭经济状况。一旦家庭劳动力逝世,家庭不仅会
学位
在当前计算机视觉领域,针对人脸的分析研究有助于计算机理解人类情感,从而更好地为人类服务。面向人脸的图像合成任务是指对目标属性进行转换,同时保留其他面部特征。然而由于人脸的特殊性和复杂性,生成具有真实感的图像是此任务的一大挑战。传统图像合成方法缺乏针对性,并且基于深度学习的人脸图像合成算法通常采用一对一的映射网络,合成效率也不高。本文在现有人脸图像合成算法的研究基础上,对多任务增强生成对抗网络的图像
学位
长期以来,企业一味追逐经济效益,而忽视了其在环境、社会责任和公司治理方面应承担的义务,在生态环境污染破坏日渐严酷、物质资源越来越缺乏的大时代背景里,顺承绿色经济,坚持稳健增长,促进可持续发展,实现我国“碳达峰”、“碳中和”,形成绿色低碳的经济体系成为了我国现阶段的重要目标,而ESG的提升发展在这发展目标的顺利完成过程里,发挥关键的影响作用。愈来愈多的企业将环境、社会责任、公司治理(ESG)等影响因
学位
补充医疗保险是对基本医疗保险保障范围以外的医疗需求进行补充保障的一种医疗保险,是我国多层次医疗保障网络中不可缺少的组成成分之一,但其目前发挥的作用十分有限。风险偏好指个体在面对风险事件时所表现出来的主观态度,可分为风险喜好、风险中性以及风险厌恶。根据期望效用理论和保险需求理论,个体的风险偏好会对个体的投保行为产生重要影响,主要体现在是否投保以及投保金额这两个方面,因此,本文基于风险偏好研究了影响补
学位
自我国重新恢复保险经营以来,保险业取得了快速发展,保险主体的持续加入为行业发展注入了新生活力。但一直以来,我国财险市场存在着严重的行业垄断现象,市场集中度居高不下。虽然各中小型保险公司也有了长足的发展,但我国财险行业仍为寡头垄断市场,且这种结构短期内很难打破。此外,虽然近年来我国财险业保费收入维持增长趋势,但其在行业原保险总保费收入中的占比逐年递减,保费增长持续承压。从业务结构来看,车险是财险市场
学位