不平衡数据集分类的Random-SMOTE方法研究

被引量 : 0次 | 上传用户:IamluyundongPPA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集在现实生活中广泛存在。在不平衡数据集中,数量上处于劣势的小类的识别往往是分类的重点。不平衡数据集中,小类样本的分布比较稀疏,并且往往被大量大类样本所包围,这为小类特征的学习带来极大的挑战。传统分类算法在不平衡数据集上分类效果不好,往往将小类样本误分为大类,不能达到分类的目的。SMOTE方法通过小类样本之间的插值合成新的小类样本以平衡数据集的分布,是一种向上采样方法。但是,按照SMOTE方法合成新的样本后,小类分布稀疏的地方仍然相对稀疏,小类分布密集的地方仍然相对密集,不能从根本上改变小类分布稀疏的情况。可以推断,落在稀疏区域的未知小类样本,仍然不易被识别。为了进一步提高小类的识别率,基于SMOTE,本文提出了一种新的向上采样方法即Random-SMOTE。Random-SMOTE可以在小类样本空间内随机合成新的小类样本,从而可以有效的改变小类样本分布稀疏的情况。算法中,分别针对数值属性和非数值属性提出了相应的处理方法。在此基础上,提出了基于Random-SMOTE的不平衡数据集分类模型。模型提供了一整套解决不平衡数据集分类问题的方案。其核心是首先应用Random-SMOTE对小类样本进行向上采样以平衡数据集,然后利用k-近邻算法对采样之后的数据集进行分类,得到分类模型。为了使k-近邻能够处理混合属性数据集,k-近邻算法采用HEOM准则来确定混合属性样本之间的距离。模型中还包括数据的预处理和不平衡数据集分类性能评价指标的选取。根据在多个实际数据集上的一系列实验表明,Random-SMOTE可以有效地解决不平衡数据集中小类分类困难的问题。主要体现在,与SMOTE和随机采样方法相比,Random-SMOTE方法不仅对小类具有更高的分类准确率,而且对小类样本的绝对稀少相对不敏感,同时在性能评价准则G-mean上总体表现最好,取得了很好的分类效果。同时,本文还给出了Random-SMOTE算法中的唯一可变参数—采样倍率N的参考设置方法。Random-SMOTE可以应用在包含非数值属性的数据集上,并且对小类的绝对稀少比较不敏感,所以本算法具有良好的鲁棒性,可以推广应用在不平衡数据集分类的实际问题中。
其他文献
近年来,由于环保和经济的原因,造纸白水封闭循环回用越来越得到重视。随着造纸用水封闭循环程度的提高,进入造纸系统的清水量和排放的废水量大幅减少。白水系统中溶解和胶体
<正>职工普法不同于法律培训。在单位的安排下,职工牺牲繁忙的工作,甚至是业余休息、娱乐的时间,接受普法教育。如果沿用老套的模式一味的去宣讲,要么有人听课上中途退场,要
<正>戴雨享的陶艺一如其名,渗透着浓浓的中国传统文人的山林气息,但是又具有当代人对现代生活的感悟。我将戴雨享的艺术看作现代陶瓷艺术中的文人画,在这些作品中,他试图重现
现代电力系统的规模不断扩大,互联程度不断加强,结构和运行方式日趋复杂,对状态估计提出了更高的要求。随着PMU装置逐步在电网中推广应用,PMU量测数据已经成为电力系统重要的
隐球菌脑膜炎(Cryptococcal meningitis)简称隐脑,是由隐球菌属中某些种或变种侵犯中枢神经系统(central nervous system,CNS)引起的一种深部真菌病,为CNS最常见的真菌感染。隐脑为
目的研究PCT是否可以作为临床判断成年社区获得性肺炎患者使用β-内酰胺类抗生素治疗敏感的预测指标。方法回顾性分析2010年10月~2012年9月在某院急诊科经验性地单独接受β-内
当今世界各国的准则趋同是大势所趋,中国的会计准则也越来越倾向于国际化,2007年我国开始施行的新企业会计准则,很大程度上体现了与国际会计准则的趋同。本文分析了会计准则
介绍经外周静脉置入中心静脉导管临床应用的研究进展。综合归纳国内外相关文献,阐述了PICC历史及现状、PICC临床应用、PICC置管方法、PICC主要并发症的防治。PICC与CVC相比,
砌体结构是一种有着上千年历史的建筑结构形式,因为有着许多优点而被广泛用于我国农村与村镇中。然而,2008年5月的汶川大地震中,无数砌体结构倒塌,造成了惨重的经济损失与人
作为教师,应不断更新教育理念、优化课堂教学策略、采取多元化的教学方法和手段、提高自身的教学水平,使学生在数学学习中获得更多成功感,增强自信心。笔者对课堂教学过程中