面向类分布不平衡数据的组合分类器剪枝方法的研究

被引量 : 0次 | 上传用户:resway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类分布不平衡数据与人们的生活息息相关,准确地分类这些数据具有非常重要的意义,因此不平衡数据分类成为数据挖掘领域的热点。面向不平衡数据分类时,传统的分类器往往失效,组合分类器性能也不理想,并且组合分类器还有占用内存空间大、预测响应时间长的不足。组合剪枝算法被广泛的应用解决上述问题,但是常见的组合剪枝算法多用训练实例集作为剪枝集,倾向选择出对负类实例更有利的基分类器,因此不宜应用到面向不平衡数据的组合分类器的剪枝中。目前单纯面向类分布不平衡实例集的组合剪枝算法较少有人涉及,本文从选择创建面向不平衡类的组合剪枝集出发,创建面向不平衡数据的组合分类器。首先本文基于SMOTE(the synthetic minority over-sampling technique)和简单随机欠抽样技术,提出了EPPS(Ensemble Pruning based on pruning set of SMOTE)和EPPU(Ensemble Pruning based on pruning set of Under-sampling)算法,这种两种算法分别把SMOTE和简单随机欠抽样技术应用创建相对平衡的剪枝集,用于监督组合分类器的剪枝过程,提升组合分类器对不平衡数据的分类性能;然后,本文又提出了EPPE(Ensemble Pruning based on Positive Examples)算法,EPPE把正类及其边界负类实例作为剪枝集,选择出基分类器池中对正类及其边界附近的负类分类性能良好的基分类器,创建出面向不平衡实例集的组合分类器。实验结果显示,与EasyEnsemble、Bagging和C4.5算法相比,EPPS、EPPU和EPPE用更小的剪枝集创建出具有更好的分类泛化性能的组合剪枝分类器,尤其是EPPE在大部分的实例集上显著好于其它的分类算法,并且三种组合剪枝算法都能显著降低组合分类器的规模。
其他文献
本文论述了从城市总体层次上解决历史性城市的保护问题。就“文物保护单位”、“历史文化街区”、“历史文化名城”三个层次的保护及其不同的保护方法,具体阐述了城市规划的
文章介绍了混装乳化炸药空气间隔装药爆破技术在露天矿山的应用,通过应用该技术前后爆破效果和经济效益分析可知,该技术可以大幅减少爆破器材使用量和装药工作量。
盐潮入侵将严重影响内河水质。本文考虑强混合型河口潮汐的特点,采用同步不同格式对河口盐潮入侵问题的流场及浓度场进行数值计算。采用欧拉-拉格朗日混合解法将对流-扩散方
电磁环网是在电网发展过程中产生和消亡的一种特殊的网架结构。多年来,对电磁环网的研究多以安全控制为目标,分析其是否开环运行,而对电磁环网合环运行的功率控制研究较少,对
近年来,智力资本在公司的价值创造过程中的重要性不断增加,与之相比物质资本对于经营绩效提升的贡献程度有了一定的下降,逐渐成为加强公司稳固的竞争地位与实现其经营目标的关键
权利本位是少数民族公民参与法律保障的逻辑起点。权利本位是以普遍赋权的方式通过少数民族公民参与权利宪法化、地方法制化和具体化为中心而展开的公民参与法律保障的立法模
以分析中国现代音乐的发展状况为基点,从现代音乐创作手法,现代音乐与民族音乐和传统音乐的融合,声乐将成为乐音表现的主要方式三个不同的侧面对中国现代音乐的发展趋势进行
背景和目的应激对胃肠道功能有近期和长期的影响。应激引起脑肠相互作用的改变最终导致一系列胃肠道疾病,包括炎症性肠病、肠易激综合征和其他功能性胃肠病、食物抗原相关的不
目的采用偏最小二乘通径模型,分析社区卫生服务机构病人满意度及其各个维度之间的关系。方法使用本土化后的皇家澳大利亚全科医生学会(RACGP)"全科医学病人满意度监测工具",