论文部分内容阅读
类分布不平衡的数据集在现实生活中大量存在,传统的成熟分类算法大多建立在数据集类分布大致平衡这一假设上,而对于类分布不平衡的数据集往往取得较差的分类效果。而且,在不平衡分类问题中往往少数类比多数类具有更重要的意义,因此不能仅仅使用准确率来评估不平衡分类算法的性能,对于不平衡分类问题可用召回率、g-mean值以及f-measure值等评估指标对不平衡分类算法进行评估。逻辑回归算法是数据挖掘中常用的分类方法,尤其对于两类分类问题。逻辑回归算法最明显的优势就是它是基于概率的分类算法并且很容易被扩展到多类问题,但是逻辑回归并不适应于不平衡分类问题,因为其目标函数是最大化每个实例被正确分类的概率的对数之和,而不考虑该实例是少数类还是多数类,这样会导致将更多的少数类实例误分为多数类。因此在逻辑回归的基础处上,本文根据类分布不平衡数据集的特点,结合传统的逻辑回归算法和三个不平衡分类问题的评价指标召回率、g-mean值以及f-measure值提出了三种适合于不平衡分类的目标函数LRM(Logistic and Recall based Metric)、GBM(G-mean based Metric)和FBM(F-measure based Metric),在这三种目标函数的基础上,本文提出三种适合于不平衡分类问题的分类算法RBLR(Recall Based Logistic Regression)、GBLR(G-mean Based Logistic Regression)和FBLR(F-measure Based Logistic Regression)。在这三种算法的求解过程中,使用拟牛顿法来解决最优化问题,预测阶段使用和传统的逻辑回归算法类似的方法进行预测。在16个UCI数据集上的实验结果表明,本文提出的三种算法RBLR、GBLR以及FBLR能在很好的在保持较高准确率的前提下,有效地提高少数类的召回率、g-mean值以及f-measure值。与过采样逻辑回归OSLR(Over-Sampled Logistic Regression)和欠采样逻辑回归USLR(Under-Sampled Logistic Regression)相比,本文提出的算法也表现出明显的优势。