面向非平衡数据的过采样方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:hj12141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中存在很多非平衡数据,其中的少数类往往更具有价值,但是传统的分类器通常都是以最大化总体分类精度为目标,从而不能有效地对少数类进行分类。解决非平衡数据分类问题的一个重要方向就是重采样技术,但是在数据集很小的情况下,重采样技术中的欠采样可能会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然有效地解决了类间不平衡问题,但是未考虑到少数类内样本的分布情况,如果对少数类样本进行无区别的过采样,有可能引起类内样本重叠,存在噪音的情况下可能扩大噪音的影响,以及未能有效地扩展少数类区域。这些情况都会造成少数类的分类精度下降。因此,本文针对目前过采样方法存在的问题做出了改进,主要工作如下:(1)由于现有的过采样方法有可能造成少数类的密集区域更加密集,甚至引起样本重叠。此外,存在噪音的情况下,现有的过采样方法可能会在噪音周围生成新样本,从而造成少数类样本分布更加混乱。针对这些问题,提出了一种基于样本分层的双向过采样方法,该方法首先基于最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层,然后对密集层边界区样本和稀疏层的样本进行双向过采样。(2)针对现有过采样方法都是一次性合成少数类样本,利用的只有原始少数类样本拥有的少量信息,所合成的样本太过于集中。所以,为了逐渐扩展少数类区域以及使合成的少数类样本更加均匀有效,提出了一种递增删除式过采样方法。首先,利用近邻特性删除噪音点,然后利用SMOTE算法翻倍合成少数类样本,删除相对紧密的合成样本,将剩下的合成样本加入到原始的少数类样本中,构成种子样本。以此类推,不断迭代,最终使种子样本和多数类样本达到数量上的平衡。总之,本文针对非平衡数据进行了研究,提出了两种新的过采样算法,并且在真实数据集上进行了验证。实验结果显示,提出的算法在处理非平衡数据分类问题时具有一定优势,有效提升了少数类样本的分类精度,为解决现实生活中的非平衡数据分类问题提供了新思路与新方法。
其他文献
近年来,机器视觉技术迅速发展,已经逐渐运用到马铃薯的品质检测分级中,基于机器视觉的马铃薯品质分级既可以有效避免机械检测带来的二次损伤,也能排除人为主观因素对分级的干
研究背景:自身免疫性脑炎(autoimmune encephalitis,AE)是一组主要累及中枢神经系统的自身免疫性疾病。广义上来说,AE主要包括由抗神经元细胞内抗体引起的经典的副肿瘤性边缘
陀螺仪是运动测量、惯性导航、制导控制等领域的核心器件。微半球谐振陀螺是最具发展潜力的陀螺之一,具有动态范围大、精度高、抗冲击性能好等特点,而且体积小、成本低、功耗
凝血检测是临床上用于止血和血栓相关疾病的诊断、预防及治疗的一种重要技术手段,在临床各科室都有着非常重要的指导作用。即时检测(point-of-care testing,POCT)是检验医学
研究目的:近年来我国儿童青少年的身体活动水平虽有所提高但仍未达到身体活动推荐量的相关标准,同伴支持作为促进身体活动的强化因素,研究其与身体活动的关系具有重要意义。
相位敏感光时域反射仪(phase sensitive optical time domain reflectometry,Φ-OTDR)根据传感原理可分为直接探测型与相位提取型。直接探测型Φ-OTDR以瑞利信号强度为探测对
大数据在云计算和云存储技术下发挥出了巨大价值,但同时也面临着诸多信息泄露的安全问题。虽然加密存储能保证数据的安全,但数据的上传下载使用不方便。针对此问题,可搜索加
本文采用Grimelius银染法对5个不同饲养周数的对照组小鼠(正常饮食)和实验组小鼠(高脂饮食)的消化道嗜银细胞进行研究。结果显示,对照组和实验组小鼠的消化道嗜银细胞除食管
针对曙光潜山内幕地层归属和储隔层分布特征皆认识不清的问题,本文应用古生物地层学、同位素地层学、岩石地层学等方法和技术辅助对潜山内幕地层进行了精细划分与对比,建立了
在故障诊断问题的研究中,随着滤波方法处理噪声方面优越性的日益显著,学者们对滤波方法的研究越来越深入.在噪声未知但有界的系统故障诊断方面,为了精确实现系统参数估计和状