基于BERT的中文短文本分类算法的研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:ruanmm2588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上的短文本数量呈现高速增长的趋势,短文本分类技术的需求与日俱增。但是短文本受字数限制存在特征稀疏的特性,基于此,本文提出了一种基于BERT模型的中文短文本分类算法。该算法使用BERT(Bidirectional Encoder Representations from Transformers) 预训练语言模型对短文本进行句子层面的特征向量表示,随后将获得的特征向量输入Softmax回归模型进行分类。经过与基于word2vec的TextCNN(Text Convolutional Neural Networks)模型短文本分类算法的对比实验,结果表明,随着数据量的增加,本文算法在测试集上的分类整体F1值最高可达93%,高出基于TextCNN模型算法6%,这说明基于BERT模型的分类算法在短文本句子层面上的向量表示可以有很好的表征效果,同时对于其他类似的自然语言处理下游任务也具有一定的参考价值。
其他文献
作为金融市场的一类特殊参与主体,系统重要性金融机构(SIFIs)具有负外部性,容易引发系统性风险与巨大政府救助成本。在传统的微观审慎监管体制之下,SIFIs的负外部性得不到充
在诗歌创作中,蒙太奇手法起到了连接各个意象的作用。对比蒙太奇的特点在于诗歌意象的组接不是以叙述性的关联而是以其对比关系为依据。类似文学中的对比描写,即通过镜头或场
在区域经济社会发展过程中,地方政府应是适合本地特色或有利于本地优势发挥的规划者,是良好的区域经济发展社会氛围的营造者,是公共产品和公共服务的有效提供者,是各类行业协
<正>随着新课程改革的深入.各地的中考也在逐步渗透课改的精神.二次函数试题作为中考中的一个热点和重点,也在悄然发生着变化.以往.中考中二次函数的试题以求它的解析式为主.
<正> 近几年来,互联网上电子交易的数量和金额迅速上升,网上交易在商业交易行为中所占的比重越来越大。但是,由于我国目前对平台提供商的责任缺乏明确规定,作为网上交易平台
目的:对高危型人乳头状瘤病毒脱氧核糖核酸(HPV–DNA)检测联合宫颈薄层液基细胞学检查(TCT)在宫颈上皮内瘤变(CIN)筛查中的应用效果进行探究。方法:选取2015年6月至2018年3月
50岁才开始创业的老刘告诉我:有时候,书念多了真的是个累赘。在北美,年轻人毕业能找到工作就工作,找不到工作才继续在学校读硕士,读PhD,说到底,继续念书是为了逃避失业。
期刊
近几个世纪以来,世界各国的社会保障政策经历了从被动到积极、从单一到系统的演变,表现出这样一些特征:数量普遍增长,与一定的经济发展水平相适应,具有明显的阶段性,呈现出连
利用光纤光栅的反射谱设计了一种用于混凝土纵向裂缝三维应变传感信号的检测及分析处理的方法.利用ANSYS软件自底向上采用构造法构建混凝土三维断裂模型,分析径向均匀作用力
冻疮冬春季节常见。近十余年来笔者用当归四逆汤治疗本病32例,疗效满意,现报告如下。一般资料本组32例中,男性13例,女性19例;年龄12~20岁17例,20~30岁15例;冻疮部位:手部5例,足部12例,手足均患者19例,耳廓及面颊6例;已