论文部分内容阅读
新冠肺炎自2019年年底爆发,逐渐演变为全球性的重大公共卫生危机事件,直到2020年4月份,国内的疫情形势才得到有效的控制。新冠疫情是中国乃至世界上百年不遇的重大传染病事件,经历了人类历史上首次千万级人口大城市的封城过程,为人类应对大自然的挑战提供了研究和分析案例。人类已经进入了信息化时代。疫情爆发初期,互联网在疫情防控和防御等方面发挥了重大作用,成为了政府发布政策通告、公众了解和交流疫情信息的主要渠道。其中,新浪微博作为国内高活跃度的社交媒体平台,在抗击新冠肺炎疫情的过程中,有上亿用户在该平台上追踪最新疫情、参与话题讨论和了解防护知识。某种程度上,这些微博文本记录了这个特殊时期人们情感的变化、社会的舆情起伏,也为我们后期研究这次重大事件提供了宝贵的真实数据。新冠肺炎爆发初期(2019年12月至2020年6月),人们的情感受到多种突发因素的影响,包括对疫情的恐惧、个人安全的担忧、信息的不全面、网络不实信息的传播、政府发布信息不及时等,表现为在新冠肺炎疫情期间的微博文本与普通文本存在较大差异。此阶段微博文本所蕴含的情感不再是粗略地表现为积极、消极、中性这三种类别,在负面情感方面会表现得更加细腻具体,会出现大量的愤怒、悲伤、恐惧等情绪,并且易受各种发布信息的影响,波动、起伏较大。因此本文提出一种更细维度的情感分类,将情感划分为积极、恐惧、悲伤、愤怒、惊奇、无情绪六个类别。本文提出了一种针对微博疫情文本的情感多分类方法,基于该方法分析这一特殊时期微博文本的情感,并展开多尺度的舆情分析研究。本文的主要工作如下:(1)针对情感分析任务中文本向量表示语义不丰富、文本特征提取不足问题,在利用预训练语言模型获取文本向量表示的基础上,提出了一种融合BiGRU-Attention(Bidirectional Gate Recurrent Unit-Attention)与 DPCNN(Deep Pyramid Convolutional Neural Networks)的情感分类模型。基于 RoBERTa-wwm-ext 模型构建模型的文本向量表示层,将文本转换为向量表示,该向量表示融合大量先验语义知识与目标领域数据的语义知识。将BiGRU-Attention结构和DPCNN结构并行拼接组成双通道的特征提取层,从向量表示中提取全局特征、上下文特征、深层语义特征等。该模型在SMP2020微博情绪分类数据集上的F1值达到83.29%,优于其他分类模型。(2)针对现有情感分类模型泛化能力不佳,在多分类场景下性能不佳的问题,提出一种融合对抗训练方法和Focal Loss的模型训练策略。使用PGD(Projected Gradient Descent)对抗训练方法对文本向量表示添加扰动来提高模型的泛化能力,训练时采用Focal Loss损失函数,降低易分类样本对梯度的贡献,提高在少样本类别上的分类准确率。通过对比实验证实加入该策略后的模型与原模型相比,性能有一定的提升。(3)对新冠肺炎爆发初期的微博文本进行多尺度舆情分析。使用本文提出的基于微博疫情文本的情感多分类方法,对微博文本的情感分类并展开舆情分析。探究不同时间、空间尺度下随疫情发展所表现出的情感分布趋势和热门关注话题,探究不同群体在疫情背景下所体现的情感特征差异等,并度量情感与新冠肺炎事件的相关性。最终基于所有分析结果,针对疏导公众情绪提出一些建议。