综合过采样与欠采样的不平衡数据集的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:dingshilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡学习已经逐渐成为当前数据挖掘领域的热门问题之一,其在医疗诊断、信用卡欺诈性检测、垃圾邮件过滤等现实应用中的需求十分广泛。在处理不平衡数据集学习分类问题时,应当遵循的准则为:尽可能提高少数类样本的分类精确度,同时又对多数类样本的分类精确度不造成太大损失。本文在不平衡数据固有特性的研究基础上,结合实际应用中数据的分布特性及其各个特征在分类过程中的重要程度,对目前常用的性能较佳的,用于处理不平衡数据的重采样算法进行了改进,有效的弥补了传统采样算法中存在的不足,提出了新的欠采样和过采样算法。为了进一步提高少数类样本的识别率,将集成学习与采样算法相结合,最终得到了完整的,针对不平衡数据集的分类学习算法。本文的主要成果有以下几点:(1)目前多数不平衡数据过采样算法是利用少数类样本的局部信息,使得合成的样本不太符合原始数据分布,而且容易造成噪声信息传播。针对这一问题,提出了基于稀疏表示的不平衡数据集过采样算法,该方法使用少数类样本的全局信息进行样本的合成,然后利用其近邻信息,去除位于多数类样本区域的合成样本。实验结果表明KSOS(K Spare Over-sampling)算法合成的样本更加符合原始数据的分布,避免了噪声信息的传播,提高了对少数类样本的识别性能。(2)目前多数基于KNN(K Nearest Neighbour)的不平衡数据欠采样算法,无法控制采样率,没有考虑离群值对分类结果的影响。针对这一问题,提出了具有离群值去除功能的基于K近邻的不平衡数据欠采样算法。该方法首先从多数类样本密集的区域删除多数类样本,获得平衡数据,然后通过分位数异常值检测去除离群值。实验结果表明KUS(K Nearest Neighbour Based Under-sampling)能在一定程度上减少多数类样本重要信息的丢失,提高少数类样本的识别率。(3)随机过采样与集成学习相结合的RUSBoost(Random Over-sampling Ada Boost)算法分类性能不太稳定。针对这一问题,提出了基于聚类的欠采样与集成学习相结合的算法CUSBoost(Cluster Based Under-Sampling Adaboost),该算法与RUSBoost类似,只是使用的采样策略不同。实验表明,该算法提高了少数类样本的识别率。
其他文献
老井复查工作对油田的滚动增储和挖潜增效有着至关重要的作用。经过多年的研究探索,老井复查技术不断进步,成效日益显著,评价方法也越来越多样化。这就需要测井工作者综合各
传统的板材焊缝缺陷一般采用脉冲超声波进行检测,在相同的激励电压下,该方法存在平均发射声功率低、回波信噪比低、以及检测范围小等不足,不利于板材焊缝缺陷的有效检出。为
随着鄂尔多斯盆地延长组下组合油气勘探的不断深入,在周家湾-高桥地区长10油层组发现了高产量的油气区,使该区成为长庆油田勘探的重点。但是该区长10油层组成藏认识程度较低,
气候变化背景下,植物的地理分布格局以及动态一直是生态学关注的热点问题之一。尽管当前研究普遍认为低温胁迫是限制植物纬度及海拔分布界限的最重要生态因子,但其受限的生理生态机理并不清楚,因而无法准确解释气候变暖下植物分布的扩张或缩小现象。揭示植物对低温适应的生理生态机理和进化特征,是理解植被分布格局对气候变化响应以及预测种群迁移的首要问题。本研究以在我国不同纬度和海拔的广布种入侵植物一年蓬(Eriger
临兴区块多年的勘探发现:该区块同时具有煤层气、页岩气和致密砂岩气的资源潜力,但在地质特征上该区块总体呈现多种岩性叠置,多种天然气交互赋存的薄互层发育特点,这就决定了
本文主要针对芬斯勒流形上共形向量场的若干问题进行了研究,其内容涉及广义(α,β)-度量的共形向量场、Kropina度量和Randers度量的共形向量场,以及芬斯勒度量的某些曲率性质
模分复用技术是利用少模光纤中的模式正交性,在不同模式间同时传输多路信号的技术。目前,由于单模光纤的非线性效应,其容量也趋近“香农极限”。因此,需要考虑新的复用技术,
氢能作为一种无毒、热值高、燃烧产物零污染、来源充足的可持续再生性能源,是替代传统的化石能源,解决日益严峻的温室效应、能源危机和环境污染的重要候选能源之一。电解水制
伴随世界经济金融全球化和一体化的不断发展,各金融行业和各金融行业间的相依结构变得更加多元化和复杂化、联动性变得更加普遍化和紧密化。虽然全球金融市场在飞速发展,但是
拓扑物理学的迅猛发展起始于量子自旋霍尔效应的发现。量子自旋霍尔态具有受时间反演对称性保护的无能隙边界态,且边界态具有自旋-动量锁定的特性。对于没有自旋自由度的声学