一种基于不平衡数据的聚类抽样方法

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户:bohecha_j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多研究表明传统分类器在对海量不平衡数据分类时偏向多数类规则,因此,会导致少数类实例被错误判断为多数类.针对上述问题,提出了一种基于分解求解的学习分类算法.算法先对样本数据进行聚类,在聚类的基础上多次根据权值对数据集进行欠抽样,产生平衡的数据集,对每个平衡数据集进行验证同时提高误判样本的权值.综合考虑每个基分类器的错误率作为分类器的权值,选择分类效果较好的基分类器进行加权集成.实验表明算法有较高的少数类正确率以及少数类F度量,同时可以大幅减少训练集数量.
其他文献
西点军校在长期办学实践中,形成了一套较为成熟的领导力培养体系,培养了包括美国总统、军事将领、知名企业家在内的各行业卓越领导人才。本文从美军关于领导力培养的三个文件
引入产品品牌造型基因的概念,从品牌造型特征和品牌语义特征两个层面对汽车品牌造型基因进行研究。运用口语分析、访谈和草图分析等方法针对不同角色群体提取了汽车品牌造型
笛膜和音色$$ 笛子音色的好坏与笛膜的好坏有很大关系,下面来讲讲关于笛膜的问题。$$ 怎样挑选笛膜?在挑选笛膜时,要注意老嫩与宽窄。笛膜过宽过厚和颜色发黄的,是老的笛
报纸
本文在研究风机风量测量原理的基础上,通过理论计算得出了进口集流器静压差与流量的对应关系,并采用动压管测量流量的方法和进口集流器测量流量的方法在现场进行了标定。比较两
音色(Quality或Tone color)是音的四大属性之一,也是重要的音乐艺术表现手段。由于中国竹笛(Chinese Bamboo Flute)自身具有“蒙膜助声”和“音色多变”两大音色特征,因此,掌
集装箱运输过程是货主和承运人两者市场博弈的结果。从货主和承运人两者经济行为的Nash均衡出发,对港口集装箱运输系统和过程进行了研究,建立了港口集装箱的运输模型,用于分
近年来,随着城市化进程的日益加快和社会经济的不断进步,道路照明建设为一项保障民生的城市基础建设,也得到了飞速发展。每年,传统道路照明都要消耗大量的电能,而且过去对路
近些年来,追求格调清晰自然的极简主义风格在室内建筑设计中逐渐风靡开来,成为一种重要的时尚性选择。所谓的极简主义既不是粗线条的勾勒,也不是纠结于细节的精雕细琢,而是追
随着Internet的飞速发展和计算机技术的日臻完善,电子商务的优越性也越发显著。为了能更有效的参与国际市场竞争,在经济全球化过程中获取更大的利益,应高度重权电子商务发展
<正>1.引言根据2007年国家卫生统计报告,美国过去12个月内接近38%的成年人和12%的儿童使用了辅助与替代疗法(complementary and alternative medi-cine,CAM)。现在慢性痛患者