论文部分内容阅读
近年来,随着互联网和移动网络的迅猛发展,社交网络平台也得到了迅速的发展。用户通过互联网主动生成文本信息,这一举动标志着人们已经不再是互联网中单纯的受众,而是成为了互联网的一部分。微博平台的可移动性,内容的共享性、简洁性和实时性使得微博已经成为了大多数网民日常生活中不可缺少的交流互动的社交网络,广大用户有了发表自己意见的空间和自由。这些带有主观色彩的言论或评价可以是普通用户的心情信息、网络消费者的购买意向、影迷对电影的喜好、网民对政府管理部门发布的政策和法规的意见等,如何从这些海量的非结构化的短文本信息中获取有价值的内容已成为目前亟待解决的问题。社交网络的火热流行带动了一个新的研究领域的诞生,那就是针对微博的情感分析。这一领域继承了文本情感分析的特点,它从微博文本的情感表达入手对其情感倾向性进行分析,分析的最终结果是将微博情感分为正面和负面,或者是正面、中性和负面,这样研究者就可以清楚的知道文本信息所表达的态度是支持还是反对,并由此做出相应的决策。本文主要研究将传统的文本分类方法应用于微博的情感分类。考虑应用机器学习的方法实现对文本的情感分类,分析Twitter情感分析的关键技术问题,着重于对提高分类精度的过程和方法上进行研究;分析不同的特征选择方法、特征权重计算方法、文本表示方法以及不同的分类器模型的构建对Twitter情感分类精度的影响。本文采用Twitter上的数据作为数据集,使用斯坦福自然语言处理小组研发的词性标注工具对微博文本进行预处理,之后在特征选择算法中选择了文档频数、信息增益和卡方检验三种不同的方法对数据集进行特征选择,采用布尔函数、词频函数和TFIDF(Term Frequency Inverse Document Frequency)三种权重计算方法计算特征集中的特征权重,分类器采用基于监督学习的分类器,分别是朴素贝叶斯和决策树分类器。文中提出了在不同的特征数量和特征权重的情况下,采用不同的分类算法训练分类器,待分类器训练完成后采用测试数据对其进行测试。实验结果表明,在一定的特征数量下,采用朴素贝叶斯、卡方检验和TFIDF的组合形式对Twitter的情感分类效果最好。