论文部分内容阅读
随着网络媒体的迅猛发展,以微博为代表的信息发布与信息共享平台得到了普遍应用。在微博平台中包含着表明用户观点或态度的主观情感倾向性文本,主观情感倾向性微博在舆情监控、热点检测等领域具有潜在的应用价值。如何从微博中自动识别表明用户观点的主观微博文本,并判断该主观微博的情感倾向性成为本文研究的目的。本文以中文微博情感分类为主线,展开了如下研究工作:(1)对微博情感词典的构建方法进行了研究。首先对现有情感词典在微博情感分类中的适用性进行了分析,针对现有情感词典对微博中情感词覆盖度不高的问题,整合现有情感词典资源并提出了一种基于平滑的SO-PMI算法对微博情感词典进行了构建,最后对微博情感词典在微博情感分类中的分类性能进行了实验。实验结果表明,本文方法构建的微博情感词典在微博情感分类中具有较好的适用性。(2)对主客观微博文本的分类进行了研究。针对现有主客观微博文本分类准确率不高的问题,利用词典与统计分析的方法对候选主观特征进行了抽取,对抽取的候选主观特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法选取了观点词、感叹号、网络词、语气词、形容词、程度词作为主客观分类特征,最后利用上述特征进行主客观分类实验。实验结果表明,上述特征在微博主客观分类中能达到较好的分类效果。(3)对主观微博文本的情感特征选择进行了研究。首先通过候选情感特征词性表对候选情感特征进行了抽取,并采用微博情感词典对候选情感特征中的非情感噪音词进行过滤;然后,采用卡方(CHI)算法对过滤后的候选情感特征词进行情感特征选择,对卡方算法在进行情感特征选择时存在的局部不稳定性,提出了一种基于CHI-tfidf的情感特征选择算法,最后,进行相关实验,对算法的稳定性与有效性进行了验证。实验结果表明,本文提出的算法在进行情感特征选择时具有较好的稳定性,且当特征维数为300时,分类的准确率为0.794,较信息增益算法、基于微博情感词典的分类算法准确率要高。