论文部分内容阅读
随着社交网络的快速发展以及移动网络设备的普及,互联网用户群体数量显著递增,社交媒体逐渐丰富多样。人们习惯于在各种社交媒体上通过文字、图像和视频等交互数据表达自己的思想和观点。在众多社交媒体平台中,新浪微博拥有覆盖面广的忠实用户群体。通过对新浪微博社交网络产生的海量短文本数据分析文本背后隐含的用户情感和情绪,厘清孕育负向舆情的社交网络局部环境,对我国思政、公共突发事件应对、公众情感情绪预判、舆情传播预测和舆情处置等具有积极意义。本文的研究主题分为两部分,短文本情感分析和基于文本的舆情引导方案。第一,本文以新浪微博历史短文本数据为研究对象,探究其潜在的用户情感,采用深度学习语言模型实现短文本情感分类任务。传统的情感分析主要有:基于字典和基于简单深度学习的方法。传统方法存在着一些问题,例如,基于字典的情感分类方法依赖于所构造词典的质量;简单的深度学习模型计算精度达不到工程化需求,模型本身也存在着缺陷,无法很好地解决上下文信息的语义理解相关任务。本文采用深度学习语言模型研究情感分析任务,提出了一类基于BERT(Bidirectional Encoder Representation from Transformers)[1]的预训练模型。首先,文本数据预处理过程中筛选出只保留中文字符的数据,并且长度少于140字符。针对中文特征的微博短文本设计了一种能够精确识别其情感的模型,利用模型运算的结果作为后续实验的基础。其次,本文对模型的预训练和微调过程进行了部分改进,包含利用对应的微博数据集更新了模型的预训练参数,在遮蔽语言模型(Mask-Language Model,MLM)训练任务中改变了部分遮蔽比例以使模型适应情感分类的数据特点,以及在微调过程中改变了原模型的部分训练参数。BERT作为多任务的预训练模型,语料库的数据质量越高、数据量越大,通常能获取更好的效果。上述改进能够在最后的情感分类阶段提高分类准确率。第二,在文本舆情引导方面,本文提出了一个全新的模型来对文本情感进行纠正。首先,为了提高实验的有效性,在词向量的输入之前进行一个单字和双字的Mask操作,以此作为降噪自编码器的输入,然后在编码器中利用双向的长短记忆神经网络(Long Short-Term Memory,LSTM)[2]对输入的词向量进行特征提取,利用自注意力对特征进行加权。解码器采用和编码器相似的结构,对编码器中输出的Mask部分进行预测。其次,本文利用解码器的输出增加了一个情感约束模块,其结构表现为双层的Bi-LSTM和一层注意力。该模块能够对编码器的输出结果进行情感加权。最后,将两部分的向量结果通过连接层和Softmax[3]分类进行求和以及标准化处理得到定向情感的句子。本文的两个实验分别在五个数据集上进行了多组对比试验,验证了模型的有效性。