论文部分内容阅读
随着互联网的飞速发展,社交网络如微博上的舆情可以一定程度反映了整个社会舆情走势,而社交网络上的用户量和信息量爆炸性增长,如何对这些海量数据进行挖掘分析变得十分关键,因此近年来利用机器学习技术自动进行网络舆情分析吸引了很多企业与学者的关注。微博的整体舆情是每条微博的立场汇集而来的,本文的研究重点是分析每条微博文本的情绪与立场,有助于实时地监测掌握微博的舆情倾向。微博文本情绪检测是对微博文本表达的高兴、悲伤等多种情绪进行检测。本文首先利用了中文情感词典、英文情感词典、中英文翻译词典构建了中英情感翻译词典,将微博中的英文倾向性词语转化为中文情感词。然后结合了LSTM和CNN的特征抽取能力,充分捕捉到文本中包含的关键倾向性短语特征。与大多数已有工作为每一个情绪训练单独的模型不同,本文设计了统一模型同时预测所有情绪标签,各个情绪的表示使用自注意力机制进行关联,并利用动态损失函数来缓解正负标签不平衡的问题。在混合语言文本情绪识别的数据集上的实验表明,与多种深度学习方法与集成模型相比,本文的多标签同步预测模型与独立预测模型相比更加节省参数,并取得了较好的效果,进而提高了模型的应用性能。单话题目标立场检测是分析微博作者关于某一话题的立场是支持,反对还是中立。由于每个话题具有一定的语言特性,大多的方法都是为每一个话题训练一个模型,然而每一个话题的标注数据过少会导致模型的泛化性能较差。本文引入预训练的BERT语言模型和较为容易获得的文本情感分类数据作为辅助任务,设计跨话题的共享立场表示和私有立场表示,在微博立场检测数据集上提升了分类的效果,实验表明BERT和情感分析辅助任务的引入显著提升了建模能力。多话题目标立场检测是分析一条微博中包含的多个相关话题的立场。在选举,商品等领域中,作者经常同时比较多个相关目标对象。本文提出一种卷积注意力的模型,利用卷积注意力来关注给定话题相关的关键性情感语义部分,然后利用多任务训练的方式缓解数据缺失的泛化性困难,预训练一个通用的模型在不同的话题中,然后微调一个联合的网络提高适应性。实验结果表明,本文的方法在推特数据集上取得了最优的效果,进一步的实验分析表明注意力机制可以有效地捕捉关键信息,多任务学习方法也可以利用不同话题之间的通用语言学特征。