论文部分内容阅读
情感是人类智能表现的一种特征。情感既可以是身体上生理状态发生变化的反映,也可通过文本加以表达。目前研究情感分析的语料资源大部分来源于用户评论文本。评论文本已成为消费者购买商品的重要参考。从文本中获取情感信息,首先要从文本中抽取语义特征信息并加以分类。因为无法及时提取到信息丰富的评论,且基于词典的方法或基于机器学习的方法量化得到的情感特征过于片面,无法很好的辅助消费者进行决策,所以提取评论文本的情感特征及对评论文本进行主客观分类的研究就有现实意义。但基于词典的研究依赖于情感词典,由于新的词汇以及未登录词较多,情感词典的构建难度较大,且词语缺少强度量化。机器学习的方法不能较好解决多个情感词时引发的情感发散问题。本文提出了结合词典和机器学习的情感分析方法,得到可以提高预测评论主客观性的正确率的情感特征组合。本文将手机评论文本作为研究对象进行相关情感分析研究工作,将基于词典与主题模型结合方法、基于机器学习方法以及词典和机器学习组合方法得到的情感特征进行量化表示。实验比较量化的情感特征对主客观分类的影响。本文的研究工作如下:(1)词典扩充与极性计算研究。在基于词典的情感分析中,针对目前通用情感词典无法满足特定领域情感分析的要求,本文基于SO-PMI算法构建了由通用词典、扩展词典和专用领域词典组合的手机领域的专属情感词库。并利用其情感词抽取和主题模型特征表示的结合方法对相应情感特征进行量化表示。实验得出,与基于词典的方法相比,词典与主题模型相结合的方法进一步优化了情感特征的量化表示。(2)机器学习的情感特征挖掘。在特征选择和组合、特征维度和分类算法选择方面进行最优化,最大化情感分类准确率。手机评论领域的情感分类时采用贝叶斯、逻辑回归、支持向量机这三种分类算法,实验得贝叶斯分类效果最好。以所有词、双词搭配、所有词和双词搭配、信息量丰富的词、信息丰富的词和双词搭配作为特征选择组合方式,实验得出信息丰富的词和双词搭配为特征在1000维时取得最优分类效果。(3)特征选择与分类算法研究。将基于词典的方法得到的情感权值、均值、标准差与基于机器学习的方法得到的积极、消极情感概率作为情感特征候选项,并结合信息特征、属性特征、语言特征进行随机森林构造,通过随机森林分类器对评论文本主客观分类预测,研究不同情感特征候选项组合对主客观分类预测的影响,得到结合词典和机器学习的情感分析方法得到的情感特征组合分类准确率最高,且随机森林分类算法比支持向量机和贝叶斯分类算法的准确率有很大的提升。