论文部分内容阅读
近年来,社交媒体已经成为人们交流信息、表达自身观点情感的重要途径,而随着移动互联网的发展和智能手机的普及,用户在社交媒体中发布的推文通常包含多种模态数据(例如同时包含文本和图片),在多模态数据中,每个模态都为其他的模态提供了信息补充,即模态之间存在关联性。然而,传统的情感分析主要基于单模态数据进行(例如只考虑文本或只考虑图片),少数的多模态情感分析研究则关注不同模态的融合,却忽略了上下文信息的影响。但用户发布的推文通常长度较短且缺乏明显的情感词,而上下文信息可以对推文的环境特征进行描述,能够有效补充推文信息,对于提高用户情感分析的效果具有重要的作用。针对已有研究的不足,本文从社交媒体中推文发布者的角度出发,考虑推文中不同模态数据在情感语义上的关联性以及推文的上下文信息对于用户情感分析的辅助作用,提出基于上下文的用户情感分析模型,以推测用户在发布推文时的情感分布。论文的具体工作包括:首先,本文从真实社交媒体数据出发,设计合理的策略过滤并选取有效的数据集,并对数据集的缺失信息进行补充抓取。在此基础上,针对推文文本,为了解决其规范性较差的问题,对用户推文中的文本内容进行预处理操作。而针对推文图片,从心理学角度出发,提取推文图片中与情感因素相关的底层视觉特征,并利用视觉词袋模型将图片底层视觉特征量化为视觉词项。其次,提出基于上下文的用户情感分析主题模型。该模型将情感信息看作是蕴含在推文中的隐含变量,通过约束推文的整体情感分布和主题,建立不同模态数据之间的情感语义关联,并从推文时间邻域信息、评论信息这两类上下文出发,显式建模两者与用户当前情感的相关性。在此基础上,对模型中的变量采样规则和参数更新规则进行推导,进而提出用户情感分析模型参数估计的采样算法。最后,为验证本文提出的模型与算法的效果,本文在真实的社交媒体数据集上对本文提出的模型进行实验验证,通过对实验结果的对比与分析,可以得出以下结论:本文提出的基于上下文的用户情感分析模型能够更有效地分析多模态推文情感,所利用的两种上下文信息对于推文情感分析的正确率等评价指标的提升发挥了重要作用,从而证明了本文提出的模型算法的合理性和有效性。社交媒体用户情感分析的研究是理解用户个体行为的关键,也是揭示用户行为规律的基础,其研究具有重要的现实应用价值,能够为网络口碑营销、心理健康医疗、股票市场分析等诸多领域提供可靠的理论依据。