【摘 要】
:
分类问题是一个十分重要的课题,传统的分类算法大多基于类别平衡的情况。但是,在实际问题中,存在着大量类别不平衡的数据,这给分类带来了挑战。在不平衡分类问题中,传统的分类算法偏爱大类样本,从而导致小类样本的分类准确率降低。本论文着重研究了不平衡分类问题,提出了一些可行的解决方法。由于不平衡数据集中小类样本分布的多样性,在设计算法时不得不根据数据集的特点进行适当的改进。针对这个问题,本论文提出了一个基于
论文部分内容阅读
分类问题是一个十分重要的课题,传统的分类算法大多基于类别平衡的情况。但是,在实际问题中,存在着大量类别不平衡的数据,这给分类带来了挑战。在不平衡分类问题中,传统的分类算法偏爱大类样本,从而导致小类样本的分类准确率降低。本论文着重研究了不平衡分类问题,提出了一些可行的解决方法。由于不平衡数据集中小类样本分布的多样性,在设计算法时不得不根据数据集的特点进行适当的改进。针对这个问题,本论文提出了一个基于欧式距离的样本选择预处理框架(Euclidean Distance Based Sample Selection Scheme,ED-SESS)。ED-SESS利用欧式距离判断样本间的相关性,将离类别中心较近的样本选为适合采样的样本。ED-SESS算法可以与大多数传统的过采样方法相结合,具有很好的适用性。在使用传统的过采样方法前,我们可以利用ED-SESS对原始的数据集进行预处理,选出最适合采样的样本,组成新的训练集。然后使用传统的过采样方法在新的训练集上进行采样,得到平衡的数据集。ED-SESS算法具有低算法复杂度的优点。同时,它也能与大多数传统的过采样方法相结合,提升传统过采样方法的性能。经典的SMOTE算法存在过度泛化(Over-generalization)的问题。现有的SMOTE改进算法大多只关注边界的小类样本,忽略了包含重要信息的非边界小类样本。针对这些问题,本论文提出了一种改进的SMOTE算法,即基于局部自适应距离的过采样算法(Locally Adaptive Distance Based SMOTE,LAD-SMOTE)。LAD-SMOTE算法利用局部自适应距离找出非边界小类样本中包含重要信息的小类样本。然后,利用SMOTE算法中线性插值的思想对这些样本进行过采样,得到平衡的数据集。相对于其它算法而言,LAD-SMOTE算法既关注了难学习的边界小类样本,也关注了含有重要信息的非边界小类样本,显著提升了分类器的性能。现有的过采样方法会在类别边界进行过采样,使得大类样本的边界区域中存在大量合成的小类样本,破坏了原始的分界面,从而引起决策面的偏移。针对合成样本导致的决策面偏移的问题,本论文提出了一种基于特征空间的过采样算法(Feature Space Oversampling Technique,FSOTE)。FSOTE 算法从特征空间中找出一个个小类簇,再从小类簇的内部空间合成新的样本。这种方式可以避免合成的样本落入大类样本的区域,减少噪声样本的产生。FSOTE算法在小类簇的内部空间合成样本,合成的小类样本仅位于小类区域中,不会破坏原始的分界面,解决了决策面偏移的问题。由于不平衡分类问题的特殊性,传统的分类指标不足以完全评价不同算法的性能。为此,一些新的分类指标如F-measure、G-mean和约登指数等被提出来了。本论文结合这些分类指标对算法进行分析,在多个UCI数据集上进行了实验。实验结果表明,ED-SESS可以很好地提升传统过采样方法的分类性能;LAD-SMOTE和FSOTE能够有效地解决类别不平衡分类问题。
其他文献
以往的火灾检测方法大多只是基于烟雾理化性质的接触式烟雾检测方法,这些接触式烟雾检测器只能安装在诸如酒店、列车车厢等狭小的室内环境中,对于许多较大的室内空间和室外空间如森林、仓库等易发火灾的区域,这种接触式检测器不能有效地覆盖整个区域,且根据烟雾传播在不同场景中的速度不同,这种接触式检测器的时效性也受到许多质疑。随着摄影设备在日常生活中的广泛应用,远距离数据传输的大量普及和数据传输速度的提高,人们可
有关中国共产党革命道路选择及胜利原因的分析,既是个历史问题,也是个现实问题;既是个理论问题,也是个实践问题。1920年毛泽东的《致周世钊信》表明,要站在文明的高度看中国共产党的文化战略选择以及马克思主义的中国化问题;1930年毛泽东的《寻乌调查》表明,要重视“关键少数”的底层日常生活经验对其政治理念与社会动员策略的影响;而1936年伪满洲国军政部顾问部的《满洲共产匪の研究》则表明,要学会借鉴他者乃至敌人的经验与智慧,回到历史场景,理解历史变迁。唯有如此,方能最大限度地避免各种“倒因为果”的现象,从
长苞铁杉(Tsuga longibracteata Cheng)是我国的特有珍稀濒危树种,在促进森林演替、维持生态系统稳定以及涵养水源方面都发挥着重要作用,而其更新困难已经成为长期困扰其恢复
2006年证监会发布的《上市公司证券发行管理办法》首次以法律形式详细规定了定向增发相关的发行条件及程序等,给定向增发的实际操作提供了法规依据,相较其他再融资方式,定向
在乡村振兴战略的逐步实施下,为促进农业发展、盘活农村资产、拓宽农户融资渠道,提高资金可得性,农地抵押贷款作为金融制度创新的“中国方案”,自2008年由点到面,由县至省试
耐辐射动球菌(Kineococcus radiotolerans,K.radiotolerans)是一种从核污染环境中分离出来的可在γ射线、强碱、高盐、干旱、高金属离子浓度、高渗透压及高化学毒性等严酷环
氢作为一种高密度的能源载体,具有清洁无污染和来源广泛等特点,而光解水和电解水制氢因为可以在不产生其他产物的情况下提供高纯度的H2和O2,所以是目前公认的最有前途的制氢
正向遗传学筛选可以揭示特定表型相对应的遗传基因,将生物现象与其相应的遗传因素直接联系起来。在哺乳动物的全基因组筛查中,CRISPR/Cas9基因编辑技术是开展正向遗传学筛选
针对抽油泵柱塞与泵筒间密封问题,在柱塞表面设计了一种仿生六边形织构,探究了该织构在不同工况和几何尺寸参数条件下对柱塞表面密封特性的影响规律,得到了最优的表面织构几何尺寸参数,揭示了柱塞表面织构的密封机理,同时利用实际加工出的抽油泵柱塞表面织构,测试其实际密封效果。首先对常规抽油泵柱塞与泵筒间间隙流场三维模型进行简化,建立了相应的几何模型和流体力学方程,分析了间隙密封机理,探究了不同因素对柱塞密封特
能源与人类的生产生活息息相关,化石燃料的广泛使用带来了很多污染问题。而氢能是一种洁净的新能源,光电催化水分解技术产氢受到了研究人员的青睐,这是因为太阳能转化为氢能