面向文本情感分类的非平衡数据采样方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:ccmsdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,尤其是网络购物的盛行,网络上出现了大量的产品评论文本。通过这些评论文本可以获得用户对产品的情感倾向,即对产品的一种赞扬或贬斥的态度。商家可从褒义评论中挖掘用户的关注点和产品的卖点,同时,也可以从贬义评论中发现自身的缺点与竞争对手的不足。对于大量的且褒贬义数量相差很大的网络评论文本,直接使用传统的二分类技术进行分类时,效果不太理想,尤其对那些非常重要的少数类样本的识别。因此,如何准确地对非平衡的评论文本数据进行褒贬情感分类成为一个亟待解决的问题。本文针对非平衡评论数据的情感分类问题进行了研究,主要在数据层面,对训练样本的多数类进行下采样,以使数据达到平衡,然后再使用传统的分类技术进行分类。论文的主要贡献有以下三个方面:(1)基于聚类的下采样算法本文提出了基于聚类的非平衡数据下采样算法CUA (Cluster-based Under-sampling Algorithm, CUA)。该方法通过对训练数据集的多数类样本进行聚类,从聚类的每个簇中随机地选出代表点,以使训练数据达到平衡。通过与不进行裁剪和随机下采样两种方法的比较,结果表明:①在处理面向情感分类的非平衡数据时,使用下采样方法进行数据的平衡化处理很有必要。②基于聚类的下采样方法在性能上比随机下采样方法稳定。(2)类边界区域裁剪算法本文提出了类边界区域的裁剪算法BRC (Boundary Region Cutting Algorithm, BRC),该算法主要对类边界的高密区中的多数类样本进行裁剪,改变类边界区域的数据分布,尽量使类边界区域变得清晰分明。经过对六个数据集的三组实验,得出以下结论:①通过对权重模式TFIDF、TF(?)Presence的比较,发现在大多数情况下,Presence权重模式比其它两种模式效果好。②研究了参数α和β的变化对BRC算法的影响。实验结果表明,参数值越小时BRC算法的效果越好。而使用BRC+RS方法时,参数设置往往要比只使用BRC大一些,才能达到更好的效果。③比较BRC和BRC+RS裁剪方法的性能。实验结果表明,BRC算法可以增强少数类的召回率,但会影响少数类的准确率和多数类的召回率。BRC+RS算法,能使多数类和少数类的F值都得到明显的提升。总体来看,BRC+RS方法比BRC方法性能好。(3)非平衡数据集裁剪实验方案设计针对非平衡评论数据的情感分类问题,设计了验证和测试两种实验方案,其中测试方案又分为平衡测试集和非平衡测试集两种情况。采用RS、CUA和BRC+RS三种下采样方法在图书和宾馆两个数据集上进行了实验。结果表明:①BRC+RS方法裁剪后的数据,比RS和CUA更有利于类别的区分。②通过方案2.1和方案2.2对比,得出经裁剪方法处理后,分类器对非平衡数据少数类的识别能力不劣于平衡数据。③通过方案2.2得出,BRC+RS方法优于RS和CUA方法。
其他文献
无线传感器是由微型电池驱动的设备具有能量有限的特点;在无线传感器网络中包含了大量的无线路由传感器。一旦这些电池安置在这些传感器当中,我们便很难去人为的更换电池,耗尽
移动Ad hoc网是一种多跳的、无中心的、自组织无线网络,又称为多跳网(Multi-hopNetwork)、无基础设施网(Infrastructureless Network)或自组织网(Self-organizingNetwork)。Ad
主机基数定义为一段时间内网络中的某主机链接的其他不同主机的数量,对于主机基数的检测是当前网络测量中的一个重要内容。随着互联网的发展,网络入侵事件频繁发生,如蠕虫病
在录井导向过程中,使用可视化处理技术将抽象数据转化成为直观形象的图件,能够帮助导向师分析地层构造性质,判定目的层的位置,提出合理的导向意见。目前,大部分导向软件对于测井资
基于大数据分析技术,构造新型功能材料信息综合数据平台,提升新材料研发生产设计过程中建模分析、数据筛选和计算效率,是目前是计算机及材料科学研究专家正在研究的热点。同
随着计算机、电子及信息技术的飞速发展,人们之间的信息交流变得越来越方便。海量的多媒体信息通过移动终端自由的传输和存储,由此带来的视觉信息爆炸问题日益严重。海量、非结
在普适计算的环境上,人与情境感知设备的交互应该简单而自然的。然而,在计算机可以融入到我们周围环境、进入我们的日常生活之前,仍然有许多问题需要解决。如果用户不能理解情境
近年来,语义分析已经引起了自然语言处理领域越来越多的关注。随着SemEval2007任务Task19的提出,框架语义抽取任务受到了越来越多研究学者的关注。框架排歧任务是框架语义结
互联网技术的飞跃式发展,促使WWW网络拥有的Web站点和信息资源剧增,面对如此庞大的信息,用户检索的资源虽然变得愈加丰富,但是,搜索引擎检索出的结果有时也难以让用户满意。
伴随着数据库技术的广泛应用,大量的数据存储到了数据库中。通过关键词查询方式访问数据库,成为了信息检索、数据库领域学者关注的研究热点,有着广泛的应用价值和研究价值。数据