论文部分内容阅读
随着社会媒体的日渐繁荣,人们越来越多的在不同的社交网站上分享生活中的感受。简短的社会媒体内容包含了巨大的商业价值,因此,对社会媒体的情感分析越来越重要。面向社会媒体的情感分类模型面临着缺少标注的训练数据、话题多样性并不可预知的问题。此外,情感分类与情感表达的目标话题有很强的依赖,主要表现在不同的话题使用的情感词,以及情感词表达的倾向性会存在很大差别。另一方面,面向开放的大规模社会媒体数据,情感分类模型的训练效果很难评价。 为了解决以上问题,本文的主要贡献如下: 1.基于话题相关情感词特征的话题自适应情感分类模型。情感分类模型的话题依赖性体现在模型利用的情感词特征与目标话题密切相关。因此,本文提出利用半监督的模型学习话题相关情感词特征,得到话题自适应情感分类。首先利用初始的公共情感词以及少量的标注数据,构建话题通用情感分类器。其次,针对目标话题领域的社会媒体数据集,协同半监督地利用非标注数据进行学习,并基于语法依赖树及规则自动抽取目标话题相关的情感词。随着模型的迭代训练,逐渐引入目标话题相关情感词、估计其权重,实现情感分类模型话题自适应的学习过程。通过对包含6个话题的数据集实验,结果表明,基于话题相关情感词特征的话题自适应情感分类模型,与传统的分类算法相比,精确度有了显著性提高。 2.考虑用户及社会网络特征的目标话题自适应情感分类模型。对当前已有的数据集进行统计分析,发现在社会媒体的某一个固定话题中,用户的情感倾向具有一致性,与此同时,具有提及关系的用户具有情感趋同性。因此,本文提出了社会网络相关特征,构建考虑用户及社会网络特征的目标话题自适应情感分类模型。在半监督的学习过程中,动态更新的用户及社会网络特征可以进一步帮助模型更好的选择话题相关的未标注训练数据,从而间接地影响模型自适应话题情感词特征的效果。通过实验对比,发现新模型的精确度、F值要明显高于传统的分类算法,以及只考虑目标话题相关情感词的话题自适应情感分类模型。与此同时,针对社会媒体的实时性特点,本文提出了目标话题动态自适应的情感分类模型。实验结果表明,动态自适应情感分类器的平均精确度也有很大的提高。 3.针对大规模社会媒体开放测试数据,本文基于Spark分布式计算平台,设计出一种并行多类情感分类算法。在开放的大规模推特数据集进行实验,利用表情符作为模型训练的评价依据,与MSVM和COMSVM两个常用有监督和非监督的情感分类算法相比,本文提出的方法在精确度和F值上都取得了显著性提高。