论文部分内容阅读
近年来,微博作为一种新的信息发布平台和社交平台越来越受到人们的关注,蕴含着巨大的政治和商业价值。通过对博文大数据展开情感倾向性分析,可以实现微博营销、品牌宣传、客户关系管理、舆情监控等有价值的应用。 目前已有的研究主要针对专业网站的评论数据展开分析,取得了较好的结果。不同于专业网站的用户评论,微博数据具有数据量大、话题分散、垃圾信息多等特点,很难直接将要素级情感分析的方法用于大规模的日常微博数据进行分析应用,研究更多针对博文的情感极性判别,没有考虑评价对象的识别。 本文提出了基于领域自动分拣的情感要素分析模型,通过实验获取有价值的博文特征表示,训练评价对象抽取模型和情感倾向性判别模型。本文设计实现的MSAS(Microblog Sentiment Analysis System)系统能够自动地完成微博数据预处理、情感要素分析和统计分析功能,为相关的应用提供有价值的分析工具。主要工作如下: (1)深入研究两个核心任务(评价对象抽取和评价对象倾向性分析)的理论方法,针对多个领域,通过选用不同的特征组合来训练评价对象抽取模型以及情感倾向分类模型,最后通过实验比较多个领域下不同特征组合对模型应用效果的影响,最终筛选出各领域中较优的模型。 (2)针对微博文本的口语化、网络化的语言特点提出数据预处理的方案,结合词频统计以及贝叶斯分类对微博语料进行数据清洗,结构化数据,以便存储及处理。为了高效地从海量微博数据中得到多领域有价值的微博数据,本文通过研究选取了与多个领域相关的特性,基于支持向量机的分类方法设计并实现微博数据的自动分拣。 (3)设计并实现了微博情感分析系统MSAS,该系统包括训练系统MSAST和应用系统MSASA,训练系统主要负责训练评价对象抽取模型以及情感倾向性判别模型,应用系统负责利用模型来进行微博情感分析。应用该系统从微博中选取了3个领域来训练模型,以电脑领域为例得到了热门的评价对象以及它们的情感极性分布。 实验结果表明,MSAS系统能够有效地面向微博用户兴趣领域挖掘出评价对象以及情感倾向,为人文或商业研究领域提供价值导向分析和辅助决策。