论文部分内容阅读
自古以来,人们不断积攒着各个不同领域的数据,而近些年随着计算机技术的飞速发展,数据的接收和存储变得极其简单快捷,导致海量的数据快速积累,如何从这海量数据中取得有效信息则成为了现今亟待解决的问题。数据挖掘,作为从海量数据中获得有用信息的数据分析技术,应运而生,此技术的发展有效提高了大量闲置数据的利用率,对未来发展具有极高的指导意义。分类任务,即确定对象属于哪一预定义目标类,在数据挖掘中是最常见和最重要的技术。至今,分类技术的发展已进入较成熟阶段。传统的分类方法大多数是基于均衡数据集的,即基于数据类别分布大致相同,误分类代价大致相同的数据集。而现实的分类问题中存在很多类别非均衡的情况,如信用卡欺诈检测、医疗诊断、信息检索和文本分类等,数据集中某个类别的样本数可能会远多于其他类别。在这些情况下,分类器通常会倾向于将测试样本全部归类为多数类而忽视少数类样本,这将导致得到的分类器在少数类样本上效果很差。非平衡数据集自身的特点以及传统分类算法的局限性是对非均衡数据集进行准确可靠分类的关键制约因素。因此,非均衡数据集的分类问题已逐渐成为机器学习和模式识别领域中的研究热点。基于非均衡数据分类的重要性,本文提出了两种解决方案:1)基于主动学习SMOTE的非均衡数据分类:少数类样本合成过采样技术(SMOTE)是一种著名的重采样方法,但它会带来噪音等问题,影响分类精度。为解决此问题,本文提出一种基于主动学习SMOTE的非均衡数据分类方法ALSMOTE。提出的ALSMOTE方法采用基于距离的主动选择最佳样本的学习策略,并与支持向量机相结合,改进了SMOTE方法的局限性。实验结果表明,该方法有效提高了非均衡数据的分类准确率。2)基于集成的非均衡数据分类主动学习算法:当前,处理类别非均衡数据采用的主要方法之一就是重采样,主要包括过取样和欠取样,然而过取样和欠取样都有自己的不足,本文提出了拆分集成主动学习算法SBAL (Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法分类,并基于QBC主动学习算法选取有效样本进行训练,这样基本避免了增加样本或者减少样本所带来的不足。实验表明,本文提出的算法对于非均衡数据具有更高的分类精度。