论文部分内容阅读
近年来,随着社交媒体的快速发展,越来越多的人倾向在社交平台发布消息,表达自己的意见,传达自身的情感。通过汇总这些信息可以分析主体的情感倾向,从而进行舆情监控和市场营销。同样在很多服务性行业通过使用情感分析技术对客户进行情感追踪,将会更好地服务客户,提升客户对企业的信赖。 情感分析的主要任务是判定文本数据的情感倾向,即积极,消极还是中立。一般用于情感分析的方法有基于情感词典和基于机器学习的方法。其中,情感词典需要在通用的情感词典库上建立领域的情感词典库,最终通过匹配文本的极性词,判定文本所属的情感极性。而机器学习则需要对大量的行业语料库进行标注,选择合适的分类模型对文本进行情感状态判定。本文选取申能集团客服热线的文本数据作为研究对象进行情感分析工作的研究,将领域情感词典用于情感分析的方法与机器学习混合情感词典的方法进行实验对比。论文的主要研究工作如下: ①结合目前的基础情感词典,加入了否定词、程度词以及停用词,通过word2vec开源工具对领域情感词典进行扩展,有效地提高了基于领域情感词典对于文本数据情感倾向判定的识别率。 ②提出了声学特征融合情感词典方法对客服热线数据进行情感分析,验证了声学特征在一定程度上对情感倾向具有辅助作用。 ③使用机器学习方法混合情感词典方法对文本数据进行情感判定,选取XGBoost分类器代替传统机器学习方法,提升了识别效果。