论文部分内容阅读
随着互联网电子商务的蓬勃发展,网络上涌现出大量的用户评论数据,这些评论中包含很多有价值的信息,成为影响商家和用户决策的重要因素。越来越多的消费者会通过浏览评论来了解产品的优缺点。而商家通过分析评论可以更好的了解到用户的需求,找到自己的不足与优势。网络评论已经成为采集用户意见、提高产品质量的重要来源。正是在此背景下,特征挖掘和情感分析技术应运而生。但是网络评论具有随意性、而且质量参差不齐、数据稀疏性强等因素导致传统算法在特征提取的准确性上存在一定的不足。而传统的情感分析技术采用统计评论中褒贬词数量进行分析得出结论,难以准确获取评论的真实情感。本文的研究课题是针对特征提取与情感倾向性分析技术进行研究。主要目的是对特征选择算法进行适当的改进,并结合当下流行的深度学习技术和神经网络模型对网络中的大规模文本数据进行运算分析,挖掘出评论中用户所关注的热点及其情感倾向。本文主要从以下几个方面展开研究。(1)本文提出了在互信息算法的基础上,通过引入相对词频因子并结合特征项权重的方式对互信息算法在文本特征选择方面的不足进行了适当的改进,对特征选择过程进行了一定的优化,并结合词频与逆向文档频算法对候选特征矩阵进行特征降维处理,从而提高特征提取的效率和准确性。最后通过实验表明此方法可以有效的改善互信息算法在处理海量并且稀疏的数据时准确率低下的问题。并对实验结果进行对比分析,显示了改进后的算法提升效果显著。(2)本文提出了一种将深度学习的WordtoVec方法和神经网络的LSTM长短时记忆循环神经网络相结合的方法,在基于深度学习的获取词向量的结果上,通过对神经网络模型进行训练以完成自动对文本数据的内容进行情感分析的过程,从而提高情感倾向性分析的效果,进而提高对于中文文本的产品特征提取和情感分析挖掘的准确性,并最终从海量评论中得到用户的关注热点和情感倾向。实验表明采用此方法可以得到更好的情感分析结果。