基于文本分类的商品评价情感倾向研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yaomingjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年电子商务的蓬勃发展使越来越多的人青睐于网络购物。一方面,为了提高客户满意度,网上商家通常允许客户对他所购买的商品进行评价,导致商品评价的数量迅速增长。另一方面,由于网购本身的局限性,容易造成商品质量鉴别困难、实际情况与商品描述信息不符等弊端。因此在购买商品前,客户不得不在大量的商品评价中翻看该商品以往的评价,了解别人对商品和服务的看法,以便决定是否购买。同时商家通过客户评价的反馈也可以改进商品质量,提高竞争力。因此,以有效获取客户评价信息为目标的数据分析技术——情感分析(SentimentAnalysis)越来越受到学者的广泛关注。情感分析的研究内容大体包括文本的主客观内容识别、情感强度计算,情感倾向性分类等。它主要基于文本挖掘(Text Mining)和数据挖掘(Data Mining),同时又融入了文本理解技术。其中,情感倾向性分类是本文的研究重点,它的主要目标是对文本情感进行正面或负面的分类,可以把它看作是一种特殊的文本分类问题。本文首先介绍了情感分析的相关背景与研究现状,然后详细描述了几种经典的特征选择算法和文本分类算法。通过总结已有方法,本文从提高分类精度和速度出发,提出了面向情感倾向的特征选择算法——矩阵投影(Matrix Projection,简称MP)算法和面向情感倾向的分类算法——归一化向量(Normalized Vector,简称NLV)算法,用来实现对商品评价的情感分析。基于矩阵投影的特征选择方法综合考虑了词的文档频率和词的平均出现频率。通过在多种分类算法上与其他几种典型的特征选择算法如文档频率(DF)、信息增益(IG)、卡方校验(CHI)的对比,表明了MP特征选择方法的有效性。基于归一化向量的分类算法一方面是将文本的向量空间压缩成归一化的特征向量,另一方面是通过归一化函数缩小高频词与低频词之间特征权重的差距,加强低频词的分类能力。本文在真实的商品评价数据集上将其与三种经典的分类算法(KNN、NaiveBayes、SVM)进行对比,结果表明基于归一化向量的方法具有较高的分类精度和分类速度。该方法在分类精度方面与KNN方法相比有明显优势,虽然略低于SVM,但是能更快的预测商品评价的情感倾向。
其他文献
受益于计算能力的提升和大数据时代的到来,机器学习在计算机视觉和语音识别等领域已经取得了显著的成果。但随着机器学习的发展,人们已经不再满足于只处理数据量大的、有监督
近年来,随着网络技术的快速发展,数字产品的传递与共享变得越来越方便,但随之产生的版权保护等安全隐患也日益引起人们的重视。数字水印技术作为一种新的版权保护技术,它可以为版
纹理合成是一种用手工来合成纹理的技术。其中基于样图的纹理合成是用小块的纹理图像为样本,来合成满足用户要求的任意尺寸的图像,并且合成图像应与与样本图像看起来相同。本文
随着网络中信息数据量的急速增加,传统的以主机为中心的网络传输模式已经开始出现疲态,该传输模式出现的问题主要包括两个方面,一方面是信息数据的失效问题,由于主机中心网络
车辆导航系统作为智能交通系统核心的内容之一,旨在减少交通拥挤和交通事故,但是随着城市交通路网规模度、复杂度日益增大,交通拥挤和交通事故压力日益增大。尤其面对越来越庞大
随着Internet与多媒体技术的发展,基于内容的图像检索技术成为了热门的研究领域。本文在介绍基于内容图像检索的底层特征提取、降维方法、相似性度量等的基础上,针对图像检索中
车牌自动识别系统分为车牌定位、车牌倾斜校正、车牌字符分割和车牌字符识别这几个模块,这几个关键环节直接影响着车牌自动识别系统的识别率。虽然,对于车牌自动识别技术得到
随着因特网技术与应用的进一步深入,微博、论坛等社交网络得到了迅猛的发展,并逐步形成了一个至关重要的信息传播平台。微博网络是基于现实生活中的社会关系建立的,它是对我
当今社会计算机已经成为人类生活各个领域必不可少的组成部分,带来了极大的便利,但是各种威胁如信息窃听、截取、修改、伪造也随之而来。因此信息技术必须足够安全,才能抵抗这些
在研究深空目标检测识别算法时,需用大量不同想定下的红外图像进行反复测试和评估。然而,由于飞行实验受诸多条件限制,很难取得足够的样本数据。为此,深空目标红外光学特性仿