基于BERT的微博文本情感引导

来源 :西华大学 | 被引量 : 1次 | 上传用户:liongliong596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的快速发展以及移动网络设备的普及,互联网用户群体数量显著递增,社交媒体逐渐丰富多样。人们习惯于在各种社交媒体上通过文字、图像和视频等交互数据表达自己的思想和观点。在众多社交媒体平台中,新浪微博拥有覆盖面广的忠实用户群体。通过对新浪微博社交网络产生的海量短文本数据分析文本背后隐含的用户情感和情绪,厘清孕育负向舆情的社交网络局部环境,对我国思政、公共突发事件应对、公众情感情绪预判、舆情传播预测和舆情处置等具有积极意义。本文的研究主题分为两部分,短文本情感分析和基于文本的舆情引导方案。第一,本文以新浪微博历史短文本数据为研究对象,探究其潜在的用户情感,采用深度学习语言模型实现短文本情感分类任务。传统的情感分析主要有:基于字典和基于简单深度学习的方法。传统方法存在着一些问题,例如,基于字典的情感分类方法依赖于所构造词典的质量;简单的深度学习模型计算精度达不到工程化需求,模型本身也存在着缺陷,无法很好地解决上下文信息的语义理解相关任务。本文采用深度学习语言模型研究情感分析任务,提出了一类基于BERT(Bidirectional Encoder Representation from Transformers)[1]的预训练模型。首先,文本数据预处理过程中筛选出只保留中文字符的数据,并且长度少于140字符。针对中文特征的微博短文本设计了一种能够精确识别其情感的模型,利用模型运算的结果作为后续实验的基础。其次,本文对模型的预训练和微调过程进行了部分改进,包含利用对应的微博数据集更新了模型的预训练参数,在遮蔽语言模型(Mask-Language Model,MLM)训练任务中改变了部分遮蔽比例以使模型适应情感分类的数据特点,以及在微调过程中改变了原模型的部分训练参数。BERT作为多任务的预训练模型,语料库的数据质量越高、数据量越大,通常能获取更好的效果。上述改进能够在最后的情感分类阶段提高分类准确率。第二,在文本舆情引导方面,本文提出了一个全新的模型来对文本情感进行纠正。首先,为了提高实验的有效性,在词向量的输入之前进行一个单字和双字的Mask操作,以此作为降噪自编码器的输入,然后在编码器中利用双向的长短记忆神经网络(Long Short-Term Memory,LSTM)[2]对输入的词向量进行特征提取,利用自注意力对特征进行加权。解码器采用和编码器相似的结构,对编码器中输出的Mask部分进行预测。其次,本文利用解码器的输出增加了一个情感约束模块,其结构表现为双层的Bi-LSTM和一层注意力。该模块能够对编码器的输出结果进行情感加权。最后,将两部分的向量结果通过连接层和Softmax[3]分类进行求和以及标准化处理得到定向情感的句子。本文的两个实验分别在五个数据集上进行了多组对比试验,验证了模型的有效性。
其他文献
改革开放以来,我国经济的飞速发展带动了汽车工业和道路事业的发展,汽车保有量以年均9%以上的速度增长,直接带动了汽车维修业的繁荣.
10月25日,俄罗斯联盟2-1b型运载火箭在普列谢茨克发射场发射了"莲花"(Lotos)S1系列电子情报卫星的第3颗卫星"莲花"S1-3,代号"宇宙"2528。这是联盟号火箭10月11日发射联盟MS-10载人飞船失败后的首次飞行。"莲花"S1系列卫星是"利亚纳"
<正>创业意识是反映人们在开创事业过程中的一种新的价值观念,即人们在创业实践活动中反映的社会思想、理论、情感、兴趣、意志等观念形态的总和。它是创业基本素质的动力系
会议
背景肺动脉高压是一种高致死率疾病,缺乏有效治疗措施,临床预后差。其血流动力学特征为静息状态下平均肺动脉压力(mPAP)≥25mmHg,肺毛细血管楔压(pulmonary capillary wedge pressure,PCWP)或左心室舒张末压<15mmHg。目前根据其血流动力学特点及病理、病理生理学特点分为动脉性肺动脉高压、左心疾病所致肺动脉高压、肺部疾病和(或)低氧所致的肺动脉高压、慢
2015年12月17日,由阿里安航天公司经营的俄制"联盟"STB/"弗雷盖特"MT型运载火箭在法属圭亚那库鲁的航天中心发射了欧洲"伽利略"卫星导航系统的第11颗~12颗工作卫星,即"伽利略"11和12,
大学生作为特殊年龄层次、受教育的以及特殊发展阶段的人群,高校在开展体育教学中对大学生体质水平应有全面而科学的认识。本文运用文献资料法、体质测试法、数理统计法等方
1956年7月,孟执中以优等成绩取得了毕业证书,结束了在华南工学院三年的大学生涯,被分配至中国科学院(简称中科院)自动化所。该所是从中科院力学所的自动化控制组发展出来的,
专利名称:预存气压、保存气压(多气室)耐扎、防爆内胎 专利申请号:200410013607.X 公开号:CN1559815 申请人:赵效民一种采用预存气压、保存气压(多元气室)耐扎、防爆的车轮内胎.封闭
近日。由中国航天科技集团公司十一院研制的彩虹T系列新型太阳能无人飞行器首飞取得圆满成功。该无人飞行器是一种以光能为能源的无人飞行器。白天,依靠其翼面上安装的太阳能
在过去四十年中,中国经济发生了翻天覆地的变化。随着经济总量的快速增长,有限的环境资源引起越来越多人的关注,新能源汽车也因此走进了人们的视野。新能源汽车行业的发展对