基于改进BERT模型的短文本分类方法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:whp6356
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网信息技术的迅速发展,网络上中文短文本信息呈现指数增长的趋势,这些短文本数据信息具有字数少,上下语义不明确,歧异多以及信息内容不规范等诸多特点.针对这些特点,如何从大量的短文本数据中提取有价值的信息,成为我们迫切要解决的问题.短文本分类就是在给定的分类模型下,让计算机根据文本的内容,将其判别为起初确定的某一类别的过程.它在文本过滤,检索,构建索引等方面都有着极其重要的作用,可以使得用户更加方便快速的解决问题.随着人们对短文本信息的需求越来越大,对短文本分类技术方法的研究也越来越具有应用价值和现实意义.本文通过对BERT模型与支持向量机(Support Vector Machine,SVM)模型的研究,为了提高短文本分类的准确率,提出TF-BERT-SVM的混合模型,主要研究内容如下:(1)构建TF-BERT模型,提高BERT模型的特征提取能力.将短文本预处理以后的词进行TF-IDF加权,将加权后的词输入BERT模型,得到具有权重信息的词向量,构成了 TF-BERT模型.将TF-BERT模型与BERT,随机森林,K-近邻以及循环神经网络模型在公开数据集头条新闻标题上进行对比实验,得出TF-BERT模型的Accuracy值,Recall值,F1值分别达到了 92.4%,89.0%,91.3%均高于其他分类模型,证明了 TF-BERT模型在短文本分类任务上的有效性.(2)构建TF-BERT-SVM模型进一步提高短文本分类效果.本文提出了 RBF核函数与Sigmoid核函数的组合核函数来优化SVM的参数,该组合核函数集合了单一核函数的优势,可以有效的提取样本的局部特征和全局特征,将具有组合核函数的SVM与TF-BERT模型融合,构成TF-BERT-SVM模型.为了验证TF-BERT-SVM模型分类的有效性,本文通过爬虫技术抓取豆瓣电影评论,将电影评论进行正负情感分类,划分测试集和训练集来训练和测试模型.最终,TF-BERT-SVM的Accuracy值,Recall值,F1值分别达到了93.6%,91.5%,91.8%均高于其他分类模型,验证了TF-BERT-SVM模型的优越性.
其他文献
随着第五代移动通信技术(简称5G)的快速发展,5G在中国已经正式投入商用,5G终端用户正在以迅猛的速度增长.目前,电信运营商在5G领域的竞争进入了白热化阶段,推出的电信套餐种类愈发丰富多样.电信套餐种类的多样化导致传统的粗放式营销策略的弊端日益暴露,而用户对套餐的需求也愈加精细化.此外,随着数据收集和存储能力的提升,电信运营商拥有大规模的用户信息数据.在此背景下,基于重庆地区2020年某三个月的移
学位
过敏性鼻炎是一种过敏性疾病,由过敏原引起的鼻粘膜炎症引发。临床上这种过敏性疾病治疗困难,由于个体体质差异,患病程度有所不同,严重时可能影响患者的日常生活。中医对体质的认识基于《黄帝内经》一书,体质是疾病发生和发展的关键内因。中医认为体质是可以调节的,矫正患者失衡的体质对疾病的诊断、治疗和预后有积极作用。因此,本文以“中医体质学说”为基础,将治疗过敏性鼻炎的突破点放在运用中医体质进行个体化治疗上,探
期刊
空气,作为我们每个人生存所必不可少的“生命气体”,它的质量状况时刻关系着我们每个人的身体健康与生活水平.山东省作为一个燃煤大省和拥有多个工业发展城市的省份,长久以来以煤炭为主的能源消费结构连同其工业污染排放一起造成了省内严重的大气污染,不仅影响着人们的身体健康,而且制约了山东省各城市经济的可持续发展.虽然政府近几年来出台的一系列污染防治措施在一定程度上改善了山东省整体的空气质量,但是每年重污染以及
学位
随机序是概率论中的重要工具,被广泛地应用于保险精算学、生存分析、运筹学、经济学等相关领域,近年来受到越来越多学者和相关从业人士的关注.随机序是定义在一族随机变量上的偏序关系,用以描述随机变量之间的大小关系或比较随机变量的离散程度,从而为变量之间的比较和选择提供理论依据.本文将随机序应用到两类非对称分布中,证明了这两类分布的位置参数、尺度参数、斜度参数与随机序间存在的充分和必要条件.本文所研究的分布
学位
20世纪70年代以来,情绪一直是二语习得领域研究的热点。但绝大多数研究都集中在外语学习的负面情绪上,其中外语焦虑(Foreign Language Anxiety,FLA)是四十多年来研究最多的情绪。直到Mac Intyre&Mercer(2014)将积极心理学明确引入二语习得领域,外语愉悦(Foreign Language Enjoyment,FLE)等积极情绪才开始引起研究者的关注。研究表明外
学位
本文是一篇英译汉翻译实践报告。原文出自整体心理学家Nicole Le Pera博士2021年出版的著作《如何才能认识自我,治愈自我,创造自我》(How to Do the Work:Recognize Your Patterns,Heal from Your Past,and Create Your Self-Harper Wave)。本书属于信息型文本,旨在介绍整体心理学。这一心理学突破了传统心
学位
百年大计,教育为本;教育大计,教师为本。教师是教育发展的第一资源,教书育人是其根本职责,使人成人是教师教育教学实践活动的最终旨向。教师实践活动的道德性要求教师要有高尚的道德品质,能够自主自觉地践履道德行为,在促进学生明德向善的同时,塑造自身完美人格、实现自身生命价值追求。就此而言,呼唤道德高尚的教师、促进教师道德发展是教师队伍建设之关键。依现实层面来看,教师道德规范的理论阐释、制度准则的外在规约已
学位
在保险精算学中,保险公司的盈余过程通常用Cramér-Lundberg风险模型来描述,该模型的提出为风险理论的发展奠定了重要的基础.为了使理论研究更接近现实,学者们对Cramér-Lundberg风险模型进行了各种各样的改造,Lévy过程就是该模型的一种推广.分红问题是保险精算领域的重要研究课题.起初,学者们研究连续型分红,如障碍分红和阈值分红.然而,在现实中,保险公司往往定期检查公司的盈余来做出
学位
关于传统养老金计划随机控制的研究已有不少成果,但随着养老金缺口压力不断上升,传统养老金计划已不能更好解决实际需求.目前,有学者结合传统养老金计划的特点,提出混合型养老金计划.其中目标收益型养老金计划能提供足够福利、维持稳定、尊重代际公平,有效解决养老金缺口问题.基于此,本文对目标收益型养老金计划的最优投资和收益支付问题进行了研究,主要工作如下:第一,研究连续时间下目标收益型养老金计划的最优投资问题
学位
随着社会物质生活水平的不断提高,人民不再只满足于眼前的吃饱喝足穿暖,而是希望未来拥有更稳定更有保障的生活.因此在经济蓬勃发展的当下,保险行业的发展也将行稳致远.在此经济环境下,保险公司的有序运营和长久发展是行业关注的重点.一方面为避免因巨额赔付导致公司破产,保险公司可以购买再保险,将其承保的一部分风险转移给再保险公司以达到分散风险的效果,同时再保险公司通过收取再保险保费获取一定收益.另一方面公司可
学位