论文部分内容阅读
随着电子商务对人们生活产生深刻的影响,面向电子商务评论文本的情感分析研究也成为当前的热点研究方向。评论文本情感分析方法主要分为基于情感词典的方法和基于机器学习的方法,然而传统的情感分析方法面对电子商务评论文本时在特征表示及提取等方面存在诸多不足,而丰富有效的特征提取是提升情感判别准确率的关键因素。为了解决传统情感分析模型在处理电子商务文本时特征构建与使用方面存在的问题,本论文针对传统情感分析方法提出了两种改进模型并在真实的中文电子商务评论上进行试验,验证了我们提出的改进方法的有效性。本文的主要工作有:第一,通过对情感词典采用模板匹配的方式进行扩展和针对不同句型针对性分析评论语句情感值的计算方法,建立了基于情感词典的改进分析模型。本文首先对现有情感词典进行了收集和整理,同时对网络词典进行收集并采用基于模板规则的方法对情感词典进行了拓展,获取领域情感词,构建了面向电子商务评论的情感词典。其次,本文引入决策树对不同句型进行分类,将句子分为四大类,包括肯定句、否定句、双重否定句及反问句,然后针对每类句型设计情感值计算方法,并对双重否定句以及反问句这两类情感强度较强的句子做加权处理,实现整条评论的情感值计算来获取其情感倾向性。最后,通过在京东部分商品评论数据上的实验证明了改进模型的情感判别效果明显优于传统模型,充分体现本文提出的改进模型的有效性。第二,通过融合词向量特征建立了基于机器学习的改进分析模型。传统的基于机器学习的分析方法对于评论这样的短文本进行特征表示时,存在特征稀疏问题。词向量技术能实现文本的向量化表示,向量维度较低,并能有效对词语之间的语义关系进行建模。为了提取更为丰富准确的文本特征,我们在第一部分拓展的情感词典的基础上基于词向量技术对情感词的向量表示进行情感调整构造情感词向量,并利用TF-IDF值表征词在文本中的重要性,作为词向量的权重,最后将词向量进行加权叠加,形成文本的向量化表示。在此基础上,将第一部分中基于情感词典的分析模型输出作为特征与本部分中的情感词向量特征进行融合,并通过机器学习方法进行情感分析。实验结果表明,改进的基于机器学习的情感分析模型相比其它基础模型在性能上有进一步提升。