不平衡数据分类问题研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:xukej
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多实际应用中,比如网络入侵、医疗诊断以及故障检测等,分类处理的对象大多是不平衡数据(集),即某些类别的样本数量明显少于其它类别的数据集,通常这些数据集中的少数类包含的信息是更重要的。然而,采用传统的分类方法对不平衡数据进行分类时,分类判决总会倾向于多数类,导致了对少数类样本的识别率低下。因此,如何有效提高对少数类样本的分类准确率成为了机器学习和数据挖掘领域的一个研究热点和难点。  KNN(K-Nearest Neighbors,K-近邻)是一种经典的分类算法。针对KNN算法在对不平衡数据进行分类时性能低下的缺点,本文设计了两种改进方法,并且构建了一个用于处理不平衡数据分类问题的原型系统:  第一种改进方法是将基于支持度的改进 SMOTE( Synthetic Minority Over-sampling Technique)算法(简称SSMOTE)与KNN算法结合。SSMOTE算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。本文将SSMOTE与KNN算法结合来处理不平衡数据的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,从而有效提高了KNN对不平衡数据的分类性能。  第二种改进方法是基于权重的KNN算法(简称GAK-KNN)。它的关键在于定义了一种新的权重分配模型,该模型综合考虑了类间分布不平衡以及类内分布不均匀的不良影响。该算法的基本步骤如下:首先采用基于遗传算法(GA)的K-means算法对训练样本集进行聚类,然后对聚类结果依照本文提出的权重分配模型计算各个训练样本的权重,最后采用改进的KNN算法对测试样本进行分类。通过对UCI数据集的大量实验表明,GAK-KNN对不平衡数据的分类性能要优于传统KNN算法以及其它相关改进方法。  本文最后利用这两种改进方法构建了一个处理不平衡数据的分类原型系统。该系统实现了对数据、数据挖掘过程和数据挖掘结果的可视化与可控性。另外,它提供了两种分类器供用户针对具体的不平衡数据的分类问题时按需选择合适的分类器并且可以自由设置相应的参数。通过对真实数据的运行测试表明了该系统具有不错的使用效果和用户体验。
其他文献
移动Ad Hoc网络,是一类由若干移动通信设备构成的自组织系统。由于Ad Hoc网络中节点移动的随机性,使其拓扑变化频繁,造成网络性能下降,加之伴随各种应用的迅猛发展,人们对Ad Hoc网
当前各种互联网应用都面临着海量数据的存储和处理问题,飞速增长数据对数据处理系统的可扩展性提出了巨大的挑战。以MapReduce为典型的云技术的兴起,为海量数据的处理提供了一
语音情感识别研究是情感计算领域的一个重要组成部分,近年来越来越多的研究者和研究机构都投身于该领域的研究中。传统的基于快速傅里叶变换方法的情感特征提取不得不进行的一
随着3D显示器和交互式多媒体系统的发展,新的3D视频应用,如三维电视(3DTV)和自由视点视频(FVV)已经越来越引起人们的兴趣。为了使这些3D视频应用成为可能,由多视点视频及其对应
RFID技术是一种非接触式自动识别和获取数据的技术,能够有效降低人工成本、提高运作效率,具有巨大的应用前景。为简化RFID系统的复杂度,通常采用RFID中间件作为连接RFID硬件设备
随着图像数据呈现几何级数的快速增长,如何实现对图像数据库更加高效、准确的检索,是众多学者研究的目标和方向。基于内容的图像检索通过提取图像的颜色、纹理、形状等底层特
互联网的飞速发展使得信息以前所未有的速度产生和传播,面对信息呈指数式增长、垃圾信息泛滥成灾的困境,搜索引擎如何找到对用户真正有用的信息遇到了很大的挑战。在传统的搜索
在现实世界中,许多领域中的数据都可以用“图”来表示。与传统的关系数据相比,图数据有着更大的灵活性。而由于数据本身的不精确、获取数据的实验手段的局限等因素的影响,不确定
随着移动通信技术的蓬勃发展、以及智能移动终端的广为普及,移动云计算正在加快商业化进程的步伐,现在已经有越来越多的用户采用移动设备来享受云服务体验。如何为用户选择“合
随着语义Web技术的不断发展,作为语义Web的核心,本体及其相关研究也得到了很大的进步。同时,作为一种清晰表达语义和知识共享的方式,本体在生物医学信息学、电子商务等方面也