基于BERT的多任务文本分析研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:baliver110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字化、网络化、全球化的发展环境下,社交媒体将人们联结在一起,重新定义了文本创作及发布的模式,文本数量和复杂度都呈现着“指数级增长”的趋势,对海量、非结构化的文本数据进行智能化管理就显得尤为重要。为了快速、准确地理解来自不同语言文字中的信息,互联网从业者和研究人员使用深度学习模型自动识别文档和句子的潜在主题。挖掘文本主题是数据挖掘的基本功能之一,也是一项自然语言文本处理的关键技术,有一定的研究价值。
  一方面,相比于传统的出版物,用户书写网络文本时经常会使用口语、俚语等不规范的表达,为挖掘文本的特征带来一定难度。另一方面,传统文本分类算法对训练样本要求较高,而中文语料库建设起步较晚,其数据的规模、质量、主题、开发性都与英文存在不小的差距。针对上述现象,本文基于XLM-RoBERTa设计并实现了一种适用于中文句子级文本分类的模型,取得的成果有:
  1、针对数据不足问题,本文使用高效的数据迁移方法,在BLEU指标的监督下将英文语境下的训练集及文本信息特征映射到中文语境,以扩充训练样本的数量。在深度学习模型中同时输入中英文语料,利用不同语言的数据分布差异,增强训练样本的复杂性,构建文本分类任务的跨语言数据集。
  2、针对数据集的特殊性,本文结合随机抽样和关键词抽取技术提出了一种预处理算法:屏蔽每组句子中的部分词语,在不影响单一语言性能的情况下进行无监督预训练。经过深入预训练,本文充分利用了多语言模型XLM-R提取词嵌入向量的能力;随后将文本特征向量输入到基于图神经网络的文本分类器中,为后续任务打下基础。
  3、根据句子分类任务与其他NLP任务的关联性,本文设计了一种基于多任务学习的模型优化方法:使用命名实体识别、关键词抽取作为文本分类的辅助任务,构建并结合多个任务的学习器进行集成学习。由于BERT能处理多种NLP任务,该方法只须在通用的Transformer框架外增加一个共享参数层就可以完成,克服了传统语言模型难以迁移的缺点。同时,通过对多个任务样本的不同语义特征进行综合提取和训练,能有效提升数据使用率,进而提高模型的鲁棒性。
  本文深入研究多语言文本分类模型,并在问题分类数据集上做了相关实验。预训练实验的结果表明,随机屏蔽算法在中文测试集上的F1值最高接近98%,比BERT-Large模型高出了4个百分点,且该算法在中文环境下的表现与英文差别不大,说明预处理算法保留了英文语料的文本特征,实现了跨语言数据迁移;对比实验的结果显示,MT-XLMR的预测准确率显著优于其他单任务模型,说明多任务学习方法能有效增强中文文本分类的性能。
其他文献
时值脱贫攻坚战收尾之际,中国扶贫减贫工作成果将接受阶段性检验。改革开放以来,贫困问题一直是中国的重点关注问题,中国一直在积极探寻符合中国国情的扶贫减贫方式。在推进扶贫工作的过程中,金融扶贫是实现扶贫工作由“输血式”向“造血式”转变的重要途径,而金融扶贫的开展又与普惠金融的发展息息相关。中国于2013年正式提出大力发展普惠金融,通过为包括城镇低收入人群及贫困人群在内的重点对象提供可负担的金融服务,进
学位
制造业作为国民经济发展的支柱产业,是立国之本、兴国之器、强国之基,对我国发展举足轻重。高技术产业作为制造业至关重要的组成部分,近年来在制造业中所占比重越来越大。同时随着我国经济的发展,传统经济红利日益消退,我国可以通过制造创新红利来促进经济可持续发展,而高技术产业对新的创新红利的形成有着无可比拟的推动作用。世界上多个国家也越来越重视高技术产业的发展,我国政府也相应出台了《中国制造2025》规划,重
随着市场经济改革的深化,我国经济水平迅速发展,但是中国的收入不平等问题日益引起社会各界的广泛关注。而另一方面,在当前的经济背景下,家庭对子女的教育支出在家庭的消费支出中占很大比例,已有较多文献从家庭内部的特征来考虑影响家庭教育支出的各种因素,但少有文献从家庭外部环境方面来研究家庭教育支出增加的原因。因此,本文采用中国家庭追踪调查(CFPS)微观数据库,从社会地位寻求的视角,研究收入不平等对家庭子女
1994年分税制改革实施以来,事权和财权不对称作为最初诱因所导致的地方政府债务的问题开始出现。在政治晋升竞标赛的制度背景下,迫于区域间经济竞争的压力,许多地方政府融资平台应运而生,在资金筹措方面扮演着重要角色,与此同时地方政府债务问题也越来越严重。同时受2008年全球性金融危机的影响,中国的经济增速放缓,为了应对这一变化,中央政府采取了积极的财政政策,地方政府也是不断加大基础设施领域的投资,这进一
党的十九大报告指出,“就业是最大的民生”。就业不仅关系到个人和家庭的幸福与安康,而且关系到整个社会的稳定与发展。尤其是高校毕业生的就业,更是关系到国家高等教育的投资回报,以及高水平人力资本对社会经济政治文化等各方面的贡献。为此十九大报告特别提出,要“提供全方位公共就业服务,促进高校毕业生等青年群体、农民工多渠道就业创业”。为与时俱进提供更有价值的就业指导,更好地引导高校毕业生实现高质量就业,需要对
本文通过对临沂辖区32家银行业金融机构进行问卷调查,对供给侧结构性改革环境下县域银行业金融机构经营转型的趋势和特点进行分析,剖析转型中存在的问题,对其中28家县域银行的转型经营效率进行测算,并对转型绩效进行实证分析,以期能够对各行重新思考和审视县域金融的服务定位和转型发展有所启示。首先对县域银行转型的特点和趋势进行了分析,各行顶层设计方面把县域金融作为增加金融供给的着力点;服务定位方面从传统的基础
自2008年金融危机发生后,全世界范围内的积极财政政策相继不断地推出,用以应对金融危机带来的冲击。随之而来的政府债务急剧增加,美国政府债务达到上限,日本由2009年53万亿日元债务发行规模达到2014年的1009万亿日元,希腊等一些欧盟国家出现债务危机以及种种债务事件,引起了全世界的关注。我国政府债务规模也持续增大,尤其是地方政府债务规模增势迅猛。根据财政部发布的2017年地方政府债务余额情况显示
信息技术的快速发展产生了复杂的数据,如何从中获取实用信息是非常值得研究的,机器学习中的分类在这方面发挥了至关重要的作用。传统分类算法假设样本的各类数量及每类被错分的代价差别不大,然而数据不平衡现象普遍存在于分类问题中,此时传统分类算法不再适用于不平衡数据的分类,因此不平衡数据的分类是一项非常具有实际意义的研究课题。  已有前人将重采样与集成学习进行结合,如SMOTEBoost、RUSBoost等,
现今数据驱动的建模过程已然成为统计数据分析的主流趋势,如何获得更真实有效的模型一直是人们关心的热点问题。对于线性回归模型来说,作为最经典且应用广泛的模型之一,其模型与推断之间的问题早己被统计学家注意到。事实上,在模型选择过程中,因没有考虑到包括采用哪种变量选择方法在内的选择产生的选择效应,从而只要变量选择确定了一个选变量集合就认为其是正确的选择。这将导致经典统计推断理论上失去其合理性与真实性,从而
学位
随着金融行业的不断发展和完善,奇异期权在近些年迅速发展,其种类趋于多样,并且受到人们越来越多的关注。奇异期权的发展为投资者提供了更多规避风险、套期保值的选择方案,满足了投资者更加多样的投资偏好。因此奇异期权的定价研究对于奇异期权产品的发展具有重要的现实意义。由于奇异期权的到期支付往往是路径依赖的,其定价问题比标准期权的定价问题更为困难。根据风险中性定价理论,学者们在完备市场的假设下推导出了众多奇异
学位