论文部分内容阅读
随着互联网技术的不断发展,尤其是网络购物的盛行,网络上出现了大量的产品评论文本。通过这些评论文本可以获得用户对产品的情感倾向,即对产品的一种赞扬或贬斥的态度。商家可从褒义评论中挖掘用户的关注点和产品的卖点,同时,也可以从贬义评论中发现自身的缺点与竞争对手的不足。对于大量的且褒贬义数量相差很大的网络评论文本,直接使用传统的二分类技术进行分类时,效果不太理想,尤其对那些非常重要的少数类样本的识别。因此,如何准确地对非平衡的评论文本数据进行褒贬情感分类成为一个亟待解决的问题。本文针对非平衡评论数据的情感分类问题进行了研究,主要在数据层面,对训练样本的多数类进行下采样,以使数据达到平衡,然后再使用传统的分类技术进行分类。论文的主要贡献有以下三个方面:(1)基于聚类的下采样算法本文提出了基于聚类的非平衡数据下采样算法CUA (Cluster-based Under-sampling Algorithm, CUA)。该方法通过对训练数据集的多数类样本进行聚类,从聚类的每个簇中随机地选出代表点,以使训练数据达到平衡。通过与不进行裁剪和随机下采样两种方法的比较,结果表明:①在处理面向情感分类的非平衡数据时,使用下采样方法进行数据的平衡化处理很有必要。②基于聚类的下采样方法在性能上比随机下采样方法稳定。(2)类边界区域裁剪算法本文提出了类边界区域的裁剪算法BRC (Boundary Region Cutting Algorithm, BRC),该算法主要对类边界的高密区中的多数类样本进行裁剪,改变类边界区域的数据分布,尽量使类边界区域变得清晰分明。经过对六个数据集的三组实验,得出以下结论:①通过对权重模式TFIDF、TF(?)Presence的比较,发现在大多数情况下,Presence权重模式比其它两种模式效果好。②研究了参数α和β的变化对BRC算法的影响。实验结果表明,参数值越小时BRC算法的效果越好。而使用BRC+RS方法时,参数设置往往要比只使用BRC大一些,才能达到更好的效果。③比较BRC和BRC+RS裁剪方法的性能。实验结果表明,BRC算法可以增强少数类的召回率,但会影响少数类的准确率和多数类的召回率。BRC+RS算法,能使多数类和少数类的F值都得到明显的提升。总体来看,BRC+RS方法比BRC方法性能好。(3)非平衡数据集裁剪实验方案设计针对非平衡评论数据的情感分类问题,设计了验证和测试两种实验方案,其中测试方案又分为平衡测试集和非平衡测试集两种情况。采用RS、CUA和BRC+RS三种下采样方法在图书和宾馆两个数据集上进行了实验。结果表明:①BRC+RS方法裁剪后的数据,比RS和CUA更有利于类别的区分。②通过方案2.1和方案2.2对比,得出经裁剪方法处理后,分类器对非平衡数据少数类的识别能力不劣于平衡数据。③通过方案2.2得出,BRC+RS方法优于RS和CUA方法。