论文部分内容阅读
近几年电子商务的蓬勃发展使越来越多的人青睐于网络购物。一方面,为了提高客户满意度,网上商家通常允许客户对他所购买的商品进行评价,导致商品评价的数量迅速增长。另一方面,由于网购本身的局限性,容易造成商品质量鉴别困难、实际情况与商品描述信息不符等弊端。因此在购买商品前,客户不得不在大量的商品评价中翻看该商品以往的评价,了解别人对商品和服务的看法,以便决定是否购买。同时商家通过客户评价的反馈也可以改进商品质量,提高竞争力。因此,以有效获取客户评价信息为目标的数据分析技术——情感分析(SentimentAnalysis)越来越受到学者的广泛关注。情感分析的研究内容大体包括文本的主客观内容识别、情感强度计算,情感倾向性分类等。它主要基于文本挖掘(Text Mining)和数据挖掘(Data Mining),同时又融入了文本理解技术。其中,情感倾向性分类是本文的研究重点,它的主要目标是对文本情感进行正面或负面的分类,可以把它看作是一种特殊的文本分类问题。本文首先介绍了情感分析的相关背景与研究现状,然后详细描述了几种经典的特征选择算法和文本分类算法。通过总结已有方法,本文从提高分类精度和速度出发,提出了面向情感倾向的特征选择算法——矩阵投影(Matrix Projection,简称MP)算法和面向情感倾向的分类算法——归一化向量(Normalized Vector,简称NLV)算法,用来实现对商品评价的情感分析。基于矩阵投影的特征选择方法综合考虑了词的文档频率和词的平均出现频率。通过在多种分类算法上与其他几种典型的特征选择算法如文档频率(DF)、信息增益(IG)、卡方校验(CHI)的对比,表明了MP特征选择方法的有效性。基于归一化向量的分类算法一方面是将文本的向量空间压缩成归一化的特征向量,另一方面是通过归一化函数缩小高频词与低频词之间特征权重的差距,加强低频词的分类能力。本文在真实的商品评价数据集上将其与三种经典的分类算法(KNN、NaiveBayes、SVM)进行对比,结果表明基于归一化向量的方法具有较高的分类精度和分类速度。该方法在分类精度方面与KNN方法相比有明显优势,虽然略低于SVM,但是能更快的预测商品评价的情感倾向。