论文部分内容阅读
不均衡数据的分类是数据挖掘和机器学习中最具挑战的问题之一。对于均衡数据,分类算法追求的目标是尽最大可能地提高分类的整体正确率。传统的分类方法对均衡数据的分类一般都能取得较好的准确度。然而,在某些特殊应用中,仅提高分类的总体正确率并不能满足应用的需要,尤其是不均衡的数据,对于少数类样本的识别率要比对多数类样本的识别率更加重要,不均衡数据分类的应用场景包括医疗诊断、信用卡欺诈检测和计算机病毒检测等。目前,针对二元不均衡数据分类算法的研究已经日趋成熟,而针对多元不均衡数据分类方法的研究,是目前研究的热点和难点。鉴于不均衡数据分类的理论意义和实际应用价值,本文对不均衡数据分类的方法进行了大规模的实验对比分析,并设计了新的多元不均衡数据分类方法。本研究分为三个部分,一是属性选择算法和数据选择算法对二元不均衡数据分类的影响,二是多类不均衡数据分类算法性能的实验对比分析,三是新的多元不均衡数据分类算法DECOC。在属性选择算法和数据选择算法对二元不均衡数据的影响的大规模实验中,在42个数据集上对比了10种属性选择算法和6种数据选择算法分别对3种分类算法的影响,实验采用了<属性选择算法-数据选择算法-分类算法>和<数据选择算法-属性选择算法-分类算法>两种不同的方式,因此对于每个数据,结合属性选择算法、数据选择算法和分类算法的方式一共有10×6×3×2=360种。通过计算分类结果在ACC(整体正确率)、ACC+(少数类样本的正确率)、ACC-(多数类样本的正确率)、G-mean(Geometric mean)和F-measure(F-Score)五种评估标准上的性能,得出了一些总结性的结论,这些结论包括但不限于在各个评估标准下,针对每种分类算法,属性选择算法与数据选择算法最好的结合方式。属性选择算法对分类的影响,或者是数据选择算法对分类的影响已有大量相关的研究,然而属性选择算法和数据选择算法结合起来对分类的影响还未有相关的研究。因此,此项工作的创新点在于将属性选择算法和数据选择算法结合起来,研究其对不均衡数据分类的影响。在多类不均衡数据分类算法性能的实验对比分析中,本文设计实验,分析了16种多元不均衡数据分类方法,揭示各种方法的优缺点,为研究人员和应用实践提供参考。实验结果表明,结合多种分类算法的DOVO(Diversified One-against-One)算法的准确率(基于AUC,G-mean等评价指标)最佳。ImECOC+sparse、imECOC+dense、HDDT+ECOC、AdaBoost.M1、SAMME和PIBoost的准确率次之。因此,若不考虑时间因素,DOVO方法是首选的多类不均衡分类算法。而在算法运行时间方面,上述7个算法中,imECOC+sparse、imECOC+dense、AdaBoost.M1和SAMME的运行速度较快。由于目前国内外对多元不均衡数据分类的研究相对比较缺乏,因此本文在对比分析了现有的16种算法的基础上,提出了一个新的多元不均衡数据分类算法DECOC。由实验结果可知:结合多种分类方法的DOVO算法的正确率最佳;在分解方法中使用sparse生成纠错输出编码的方法优于OVO;由ECOC改进而来的imECOC方法更适用于不均衡数据。综合这三条结论,新方法DECOC使用了多分类器系统,同时在分解方法中使用sparse生成纠错输出编码,并且采用了imECOC方法中对每个子分类器分配不同的权重。新算法在ACC(整体正确率)、G-mean(Geometric mean)、F-measure(F-Score)和AUC四个方面都优于现有的16种方法。本文对不均衡数据分类算法的性能进行的研究成果,对数据挖掘的研究人员和工程师有着较高的参考价值,方便相关人员选择适用的方法,指导应用实践。