【摘 要】
:
在实际的应用中,人们更加关心的是不平衡数据集中的少数类样本及其被误分所带来的损失。这使得在不平衡数据的分类学习中,研究如何提高少数类的分类性能具有重大的现实意义。
论文部分内容阅读
在实际的应用中,人们更加关心的是不平衡数据集中的少数类样本及其被误分所带来的损失。这使得在不平衡数据的分类学习中,研究如何提高少数类的分类性能具有重大的现实意义。过抽样算法是对少数类样本人为地增加其数目以达到整个数据集趋于平衡的方法。典型的过抽样算法为2002年由Chawla等人提出的SMOTE(Synthetic Minority Over-sampling Technique)算法,其基本思想是通过少数类样本同类之间的线性插值,合成新的同类样本以达到平衡数据集分布的目的。然而,SMOTE算法却忽略了靠近分类边界的样本以及孤立点对少数类分类性能的影响。鉴于此,HanHui等人提出的Borderline-SMOTE算法在SMOTE算法的基础上做了改进。其基本思想为仅仅使用少数类样本中的边界样本进行新样本的合成。该算法虽然在一定程度上提高了少数类样本的分类性能,但由于忽略了安全样本和孤立点,故在分类性能的提高上存在一定的局限性。为了提高少数类样本的识别率,本文在BSMOTE算法的基础上增加了对孤立点和安全样本的处理,并在采样倍率的设置和合成规则的处理上做了改进,提出了NSMOTE算法。NSMOTE算法首先采用“分而治之”的思想把训练集中的少数类样本归为三类:边界样本、孤立点及安全样本;然后,对三类样本分别进行处理合成新的样本;最后,把合成的新样本和原始数据集归并为新的训练集,并采用Biased-SVM分类算法对其进行建模学习。数据实验结果表明,该算法在提高不平衡数据集整体分类性能的同时有效的提高了少数类的分类性能。
其他文献
为提高魔术贴产量和品种,设计了一套基于单片机的魔术贴剪切机的电气控制系统。该电气控制系统依据魔术贴剪切机的运行流程进行设计,将魔术贴剪切机从手工化作业转变为自动化
"钱学森之问"掀起了拔尖人才培养的热潮。作为我国高等教育的一部分,高职院校也应该不断探索拔尖人才培养的路径和模式。高职院校应该依据国家教育方针,重视高素质技能型人才培
目的对比研究乌司他丁对体外循环(CPB)心脏手术患者凝血功能的影响.方法 36例CPB心脏手术患者随机分为3组:试验1组术中应用乌司他丁30万KIU;试验2组应用乌司他丁60万KIU;对照
针对当前侦查破案工作的实战需求,需提升警犬技术实战应用水平。警犬技术部门要围绕实战开展警犬训练、推广新技术,切实提高实战攻坚能力。强力推动地市级以下公安机关建立刑
青霉素对革兰氏阳性菌抗菌作用强、疗效高、毒性低,广泛应用于临床.20世纪后期临床上通常使用苯甲醇作为注射溶媒,减轻其肌肉注射时引起的疼痛.2001年国家药品不良反应监测中
<正> 肝癌是我国常见的恶性肿瘤之一。近年来,世界各地肝癌的发病率呈上升趋势,肝癌的研究已受到广泛重视[1]。但由于肝癌早期症状轻,临床表现常不典型,发现肝癌较困难,一旦
胃癌的发病以50~70岁最高,但近年来青年人胃癌的发病率亦日渐增多,我院从1991年2月~2000年2月经胃镜(或手术)后病理确诊进展期胃癌831例,本文对同期老年人胃癌360例及青年人胃
著名中医专家王静安行医多年,活人无数,治疗疑难杂症每每应验。本文以胃脘痛、前列腺增生出血、抑郁症为例,意在展现王老独到的临证见解及灵活多变的治疗方法。
目的探讨外展神经麻痹的病因。方法选取于2014年4月~2017年4月在我院神经内科,神经外科及眼科收治住院的外展神经麻痹患者的病例45例进行临床分析。结果引起外展神经麻痹的主
北京科通物流中心,位于北京南四环、五环路之间,与北京市经济技术开发区(BDA)隔路相望。东临京津塘、京沈高速公路,距市中心13公里,距首都国际机场30公里。交通便利。地理位置优越