基于词典和机器学习组合的情感分析

被引量 : 32次 | 上传用户:jq1983wyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感是人类智能表现的一种特征。情感既可以是身体上生理状态发生变化的反映,也可通过文本加以表达。目前研究情感分析的语料资源大部分来源于用户评论文本。评论文本已成为消费者购买商品的重要参考。从文本中获取情感信息,首先要从文本中抽取语义特征信息并加以分类。因为无法及时提取到信息丰富的评论,且基于词典的方法或基于机器学习的方法量化得到的情感特征过于片面,无法很好的辅助消费者进行决策,所以提取评论文本的情感特征及对评论文本进行主客观分类的研究就有现实意义。但基于词典的研究依赖于情感词典,由于新的词汇以及未登录词较多,情感词典的构建难度较大,且词语缺少强度量化。机器学习的方法不能较好解决多个情感词时引发的情感发散问题。本文提出了结合词典和机器学习的情感分析方法,得到可以提高预测评论主客观性的正确率的情感特征组合。本文将手机评论文本作为研究对象进行相关情感分析研究工作,将基于词典与主题模型结合方法、基于机器学习方法以及词典和机器学习组合方法得到的情感特征进行量化表示。实验比较量化的情感特征对主客观分类的影响。本文的研究工作如下:(1)词典扩充与极性计算研究。在基于词典的情感分析中,针对目前通用情感词典无法满足特定领域情感分析的要求,本文基于SO-PMI算法构建了由通用词典、扩展词典和专用领域词典组合的手机领域的专属情感词库。并利用其情感词抽取和主题模型特征表示的结合方法对相应情感特征进行量化表示。实验得出,与基于词典的方法相比,词典与主题模型相结合的方法进一步优化了情感特征的量化表示。(2)机器学习的情感特征挖掘。在特征选择和组合、特征维度和分类算法选择方面进行最优化,最大化情感分类准确率。手机评论领域的情感分类时采用贝叶斯、逻辑回归、支持向量机这三种分类算法,实验得贝叶斯分类效果最好。以所有词、双词搭配、所有词和双词搭配、信息量丰富的词、信息丰富的词和双词搭配作为特征选择组合方式,实验得出信息丰富的词和双词搭配为特征在1000维时取得最优分类效果。(3)特征选择与分类算法研究。将基于词典的方法得到的情感权值、均值、标准差与基于机器学习的方法得到的积极、消极情感概率作为情感特征候选项,并结合信息特征、属性特征、语言特征进行随机森林构造,通过随机森林分类器对评论文本主客观分类预测,研究不同情感特征候选项组合对主客观分类预测的影响,得到结合词典和机器学习的情感分析方法得到的情感特征组合分类准确率最高,且随机森林分类算法比支持向量机和贝叶斯分类算法的准确率有很大的提升。
其他文献
改革开放以来随着经济水平的提高,人们思维眼界的不断拓展,对娱乐休闲的需求持续增强,我国的体育事业也日趋完善和提高。作为集体项目的篮球运动因其观赏性强,开展广泛,逐渐成为人
与《丝路花雨》相比,舞剧《大梦敦煌》不仅再现了敦煌艺术舞派,更是再现、传承并发扬了敦煌艺术精神,艺术境界更上一层楼。在具体的舞剧创作过程中,舞剧又通过创造意境的民族
2014年是中国戏曲颇具创举的一年。三大国家级戏曲节的举办和南北方剧目展演,充分展现了政府的扶持之力;以京剧、越剧等为代表的活跃剧种,或在名家名剧上抱团演出,或在思想内
目的:探讨丹参的药理作用及临床应用。方法:将我院2011年1月至2012年10月收治的应用丹参的100例患者的临床资料进行回顾性分析,并与100例不使用丹参治疗的同种疾病患者作对比
在当代世界,一个重要的共识是,残疾是人类发展进程中付出的社会代价,残疾人是人类多样性的具体表现,残疾人权利具有普遍性和特殊性,残疾人事业既是人道主义事业,更是社会正义事业。
目的:探索一种操作简便、结果可靠的甲真菌病检验方法。方法:对121例拟诊甲真菌病的患者分别采用KOH直接镜检法和浸软法进行病损指、趾甲的真菌镜检,并与真菌培养法进行比较
目前民警在执法活动中主要存在四种消极作为现象:失职不作为,违规乱作为,茫然不知为,作为不到位。公安执法消极作为的原因既有作为人执法思想不端、执法素能不高的主观因素,
在现代的城市化给排水管道施工中,通常会应用到非开挖技术。非开挖技术就是指在不破坏地表的情况下,也能够进行地下管道铺设的施工技术,由于在现代化的城市中,地下管道错综复
近几年以来,随着科学计算机网络及人工智能领域的发展,图形图像数据量逐渐增多,于是,如何从大量的自然图像中快速提取到视觉特征已经成了机器智能学习中的热点研究课题,进而
首先通过分析指出层次分析法 ( AHP)存在的问题 ,然后给出了较文献 [2 ]条件更弱的模糊一致矩阵的定义 ,并对新定义的模糊一致矩阵的性质 ,用模糊一致矩阵表示因素两两重要性