基于word2vec情感分析系统的研究

来源 :长春大学 | 被引量 : 3次 | 上传用户:zhaofeng130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析,通常也称情感极性分类,是指用来挖掘一段文本所蕴含感情的方法,通常有三种状态:偏积极、偏消极和偏中性。随着互联网的蓬勃发展,社交型网络平台对人们的影响越来越大,大量网络用户在各种平台上会产生海量信息,其中以文本、图片、视频居多。其中,文本在某种程度上可以代表用户对某一事件的态度,例如可对某一电影或者商品的评价在情感上根据偏积极、偏消极或偏中性进行分类,就可以判断某一电影或者商品是否受用户欢迎,同时对这一电影或者商品之后的营销也会起到一定的指导作用。本文主要获取了商品评论以及电影评论数据,提出了基于word2vec的情感分析方法。首先,通过爬虫技术,在互联网上爬取了相当数量的评论数据,以此来构建本文所使用的数据集,解决了缺少公开情感分析数据集的问题。并对其进行文本清洗、文本归一化、中文分词、情感极性标注等一系列数据预处理工作,得到文本评论语料;在语料之上,构建了本文所使用的数据集,其中训练集占数据总量的70%,测试集占数据总量的30%;同时为了便于快速计算TF-IDF的值,构建了相应的情感词典;通过word2vec模型训练了词向量集,作为后续模型的输入。其次,本文提出了一种基于位置编码的word2vec与TF-IDF相融合的算法模型,并在本文构建的数据集上,与传统机器学习模型SVM和深度学习经典模型CNN、LSTM进行了模拟对比实验。实验结果表明:该模型相较于SVM、CNN、LSTM,模型体积小,参数少,Acc(准确率)分别提升了23.2%、9.7%和3.5%,在测试集上Acc和F1-Score分别达到了85.9%和73.2%。最后,本文设计并实现了一个在线实时情感分析系统,用户可以实时输入文本,系统以图形界面化的方式将文本蕴含的情感信息展示在用户面前,方便用户实时查询,具有实用性、可操作性、准确性、直观性等优点。
其他文献
图像显著性区域检测是模仿人类视觉注意机制,将视觉场景中的显著对象提取出来,从而使计算机具备类似人的视觉主动性和选择性的一种图像处理技术,在图像分割、图像检索、图像/
红外辐射是当今社会运用广泛的一段电磁辐射波段,在军事、工业、医学等方面都有重要应用。而红外探测系统由于其被动式探测的工作方式,有着保密性强、隐蔽不易被发现、不易被
文言文是古代中华民族历史、思想、文化的载体,是我们民族文化之根,它承载着厚重的文化内涵和智慧结晶。2019年秋,全面改版的统编版小学语文教材的编排,对文言文的教育越来越
在生化分析中,待测样品通常体积有限且待测组分含量较低,因而常需要进行样品前处理操作。现有方法常基于SPE、zip-tip等对其进行富集处理,这些方法虽在样品消耗量方面存在一
以石墨烯为代表的二维(2D)材料具有独特的物理化学特性和其背后复杂的机理,自它们在2004年问世以来就一直是研究的热点。过渡金属硫族化合物(TMDCs)作为一种新兴的2D材料具有
图像语义分割是计算机视觉的重要组成部分,能够同时识别目标的位置和类别,这在遥感图像处理中具有重要的现实意义。在传统的语义分割算法和深度卷积神经网络的基础上,本文提
热工对象多是大惯性、非线性、耦合性非常强的复杂多变量系统,多年来,对热工对象的建模和控制一直是研究的热点。基于现场数据的建模以及先进控制更是具有非常重要的理论意义
计算机智能时代的到来,人脸检测与识别技术作为计算机视觉领域的热门方向越发备受关注。人脸检测与识别技术有着广泛的应用前景,巨大的潜在商业价值。然而,这一技术的发展又
随着城市工业化发展和技术的进步,环境污染问题也日益严重,引起了世界范围的关注。特别是近几十年来,我国经济迅速发展,对各种能源的消耗越来越大,因此,我们也付出了环境恶化
分类是数据挖掘领域研究的重点内容之一。分类挖掘的主要目标是在已知类别的样本集中训练出一个具有较强泛化能力的模型,以便对新数据能有一个准确的预测。目前,虽然研究者们