SMOTE不平衡数据过采样算法的改进与应用

来源 :广西大学 | 被引量 : 0次 | 上传用户:liongliong416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集指的是数据集内各类样本点数目相差较大的数据集。使用传统的数据挖掘算法处理不平衡数据集存在着准确率低下、分类效果不佳的问题。SMOTE算法对不平衡数据集进行预处理,也存在采样有效性不足、模糊正负类边界、影响原始数据分布的缺陷。本文针对传统的SMOTE算法存在的问题,对其进行改进,开展了以下研究工作:(1)研究SMOTE算法的优化策略,提出基于K-means聚类的SMOTE算法(KM-SMOTE).该算法对少数类数据集进行数据预处理,以簇心与聚类数据点为基准,用改进的KM-SMOTE采样公式替代SMOTE算法的采样公式,将新增加的样本数据控制在少数类区间,以此来解决SMOTE算法存在的无法体现不平衡数据集的均匀分布以及模糊正负类边界的问题。实验结果表明,改进的KM-SMOTE算法能够提升少数类样本的分类精度,改进效果明显。(2)为了提升SMOTE算法的抽样能力,改进过拟合问题,提出第二种改进的SMOTE算法(RM-SMOTE)。该算法同样以聚类簇心为中心,通过建立h维球形空间,并在球体内随机插值,在扩大合理数据插值方式的情况下,进一步收缩了边界插值的区域,提升了算法合理性。实验结果说明,RM-SMOTE算法在不平衡数据集的分类上有其特定的优势,对不同数据集分类效果的稳定性好。(3)将改进的算法应用于网络入侵检测中,并通过在UCI数据集和入侵网络检测数据集上的实验,进一步验证了本文算法的可用性。
其他文献
本体作为描述语义Web信息的一种模型,通过良好的概念层次结构、类、描述构造子、概念之间的属性关系和对逻辑推理的支持等来表达信息的语义。由于本体提供带有语义信息的一种
网络的高速发展使得组建网格成为可能。网格是通过Internet将分散的计算机虚拟成一个超级计算机,将网络中闲置的资源(包括计算资源、存储资源以及科学仪器等)有效地管理利用,
信息安全的核心是数据库的安全,对数据库中重要数据或敏感数据进行加密处理是一个有重要理论价值和现实意义的研究课题,但是目前大多数的大型数据库都还没有使用数据库加密这
随着互联网的普及和信息技术的不断发展,网络已经成为大众生活不可或缺的一部分,人们通过网站可以浏览到感兴趣的信息,还可以学习、交流、购物等等。对于企业来说,主要通过网站开
计算机网络的产生使得人们进入了一个信息化的时代,网络为大众传输和获取信息提供了极大的便利,但因系统漏洞、非法手段等方式使得各种重要信息的安全性和完整性等受到极大的威
随着近20年来网络技术的发展,使得数字化信息席卷全球。数字化信息的爆炸式增长,导致数据的存储方式发生变革,发生了服务为中心的存储方式到数据为中心的存储方式的转变。SAN
病毒检测与防御是计算机安全问题中的一个重要的研究课题。目前,病毒的花样不断的翻新,并大量的使用了多重加密壳、驱动关联壳、变形壳等代码保护机制以及多态和变形等新的技
关联规则挖掘作为数据挖掘的一个重要研究分支,由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,能够有效解决“数据丰富、知识贫乏”的现状,因而具有较大的理
一个能够加快搜索视频的速度的方法是搜索特定类型的视频。因此,我们十分需要能对这些视频进行归类的计算工具,以此缩小语义鸿沟。对视频进行精确归类需要视频数据的良好表示,且
学位