论文部分内容阅读
情感分析,通常也称情感极性分类,是指用来挖掘一段文本所蕴含感情的方法,通常有三种状态:偏积极、偏消极和偏中性。随着互联网的蓬勃发展,社交型网络平台对人们的影响越来越大,大量网络用户在各种平台上会产生海量信息,其中以文本、图片、视频居多。其中,文本在某种程度上可以代表用户对某一事件的态度,例如可对某一电影或者商品的评价在情感上根据偏积极、偏消极或偏中性进行分类,就可以判断某一电影或者商品是否受用户欢迎,同时对这一电影或者商品之后的营销也会起到一定的指导作用。本文主要获取了商品评论以及电影评论数据,提出了基于word2vec的情感分析方法。首先,通过爬虫技术,在互联网上爬取了相当数量的评论数据,以此来构建本文所使用的数据集,解决了缺少公开情感分析数据集的问题。并对其进行文本清洗、文本归一化、中文分词、情感极性标注等一系列数据预处理工作,得到文本评论语料;在语料之上,构建了本文所使用的数据集,其中训练集占数据总量的70%,测试集占数据总量的30%;同时为了便于快速计算TF-IDF的值,构建了相应的情感词典;通过word2vec模型训练了词向量集,作为后续模型的输入。其次,本文提出了一种基于位置编码的word2vec与TF-IDF相融合的算法模型,并在本文构建的数据集上,与传统机器学习模型SVM和深度学习经典模型CNN、LSTM进行了模拟对比实验。实验结果表明:该模型相较于SVM、CNN、LSTM,模型体积小,参数少,Acc(准确率)分别提升了23.2%、9.7%和3.5%,在测试集上Acc和F1-Score分别达到了85.9%和73.2%。最后,本文设计并实现了一个在线实时情感分析系统,用户可以实时输入文本,系统以图形界面化的方式将文本蕴含的情感信息展示在用户面前,方便用户实时查询,具有实用性、可操作性、准确性、直观性等优点。