论文部分内容阅读
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题的专用算法不多。本文主要研究集成异种分类器分类稀有类问题。由于数据的高度倾斜,很多传统分类算法在稀有类上效果不佳。本文使用一种新的集成方法,称为EDKC(Ensemble of Different Kind of Classifiers),用来分类稀有类。EDKC集成不同的分类器形成组合分类器,并且通过加权投票表决对未知样本进行分类。在UCI机器学习数据库的多个稀有类数据集上的实验结果表明,EDKC对稀有类分类不仅具有较高的F-度量值,能达到目标类召回率和精度的平衡,而且能够取得很高的分类准确率。集成学习方法是从机器学习领域逐渐发展起来的用于提升弱分类器分类准确率的技术,被认为是近十年来提出的最有效的学习思想之一。与单个算法相比,集成学习不容易出现过适应现象。本文使用一种新的集成技术,它不同于bagging和boosting集成技术,因为它们只能集成用相同分类算法建立的分类器;而这种新的集成技术可以集成不同分类算法建立的分类器。所以这种集成技术更能综合多种分类模型的优点,得到更好的分类效果。集成的基础是多种分类算法在数据集上的误分类样本不同,但是我们进一步研究发现,数据集中有一些样本,是多种分类器都不能正确分类的。数据集中一些多个分类算法都不能正确分类的样本对分类算法建立分类模型时存在不利影响,本文中称这些不能被分类算法正确分类的样本为离群点。我们研究删除这些离群点,用分类算法建立分类器,在UCI数据库的多个数据集上的实验结果表明,删除离群点以后建立的分类模型可以得到更高的分类准确率。通过对稀有类分类问题的研究与实践,本文从中探索了一些可行的规律,在一定程度上提高了稀有类分类性能并同时保持总体分类准确率在较高范围内。这为稀有类问题研究提出了一种新的视角同时为进一步的研究工作提供了丰富的实验数据。