论文部分内容阅读
类不平衡问题是模式识别和机器学习领域的热门研究问题之一,其特征是某些类实例数明显少于其它类实例数。在实际应用中,正确识别少数类实例往往比正确识别多数类实例更有价值。例如在医疗诊断中,只有极少数人是癌症患者,如何正确识别这些癌症患者具有重要意义。然而,作为经典的统计分类方法,逻辑回归试图通过假设数据集中各类的实例数目相当,以达到总体高准确率的分类目的。这往往导致学习到的模型不能很好地捕获少数类实例特征,进而误分少数类实例。针对该问题,本文提出了两种面向类不平衡问题的逻辑回归分类学习算法:(1)提出新的针对类不平衡的逻辑回归学习算法。逻辑回归使用最大似然估计法求解模型参数,这导致模型很难捕获少数类实例特征。针对该问题,本文构造了一种基于最大似然函数和召回率的度量指标MLER(Maximum Likelihood Evaluation and Recall)。与最大似然目标函数不同,MLER同时考虑模型的准确率和召回率,进而保证模型在所有类上的性能。根据MLER,本文提出了一种面向类不平衡问题的逻辑回归新算法LRIL(Logistic Regression for Imbalanced Learning)。依据MLER,LRIL使用牛顿法学习相关参数。实验结果表明,LRIL在保持逻辑回归高准确率的前提下,有效地提高了其在召回率、f-measure以及g-mean上的性能,同时与其它高级方法相比,LRIL也表现出明显优势。(2)针对类不平衡问题中类分布不均衡这一特征,提出了基于k-means和逻辑回归混合策略的类不平衡学习算法ILKLR(Imbalanced Learning based on k-means and Logistic Regression)。不同于传统的逻辑回归方法,ILKLR采用k-means算法将多数类数据集划分成多个子簇并关联新的类标号,进而达到训练集线性可分的目的。实验结果显示,本文提出的数据预处理方法比传统逻辑回归、欠抽样逻辑回归、过抽样逻辑回归等方法在召回率、g-mean和f-measure等指标上效果更优。