论文部分内容阅读
分类任务是数据挖掘和机器学习中基本的研究内容之一,在商业交易、金融市场、电信服务、数据分析、科学研究等许多领域中有着广泛的应用。传统的分类算法是在假设数据平衡的基础上提出的,优化整个数据集的准确性。在实际生活中,许多提供给分类任务的数据集往往是不平衡的,比如软件缺陷检测,信用卡欺诈交易预测,医疗疾病诊断和图像检索。当现有方法学习该不平衡数据时,分类模型会将未知样本偏向划分为多数类,而导致少数类样本无法识别。而在实际应用中,预测少数类类别的准确性至关重要,因为将少数类样本错误分类代价与多数类样本错误分类代价相比,少数类样本的错误分类的代价更大。研究如何提高分类器对不平衡数据的分类精度有着重要的意义。目前为解决不平衡数据分类提出的算法中,集成学习因为融合多个基础分类器得到较好的泛化性能而得到研究人员的青睐,但是处理高度不平衡数据和复杂不平衡数据时,依旧存在泛化能力不强的问题。因此,本文主要立足于集成学习提出泛化能力较高的算法用于不平衡数据的分类。论文主要研究内容和创新工作如下:(1)针对高度不平衡数据,本文基于距离融合规则提出了平衡集成学习模型(DBEDCR),并有效应用高度不平衡数据分类任务中。DBE-DCR基于DBE集成模型,首先将高度不平衡数据划分为多个平衡度较低的子集并在各个子集中进行过采样以保证每个子集中有足够的学习样本。最后由DCR将DBE集成模型的输出结果融合输出,DCR考虑了待分类样本与学习样本间的关系以调整DBE模型的输出获得更好的泛化能力。在KEEL公开数据存储库收集的48组不平衡数据上进行实验,实验表明DBE-DCR与当前最优方法相比表现出相当甚至更好的性能。(2)针对复杂不平衡数据,本文基于集成学习算法提出了动态决策算法(DESD)。目前为不平衡数据分类问题提出的方法没有考虑到类别重叠等复杂数据问题,甚至在处理后恶化复杂数据区域。为解决该问题,本文提出了一种新的动态决策算法。首先,DESD重复随机分裂技术将数据集划分为多个平衡子集,这些子集不包含或很少包含类重叠等问题。然后,提出了一种综合整体正确率和少数类正确率的选择准则挑选出能力较强的分类器参与最后的集成。同样在KEEL收集的不平衡数据集上对所提出方法进行了测试与比较,实验表明提出的DESD算法优于同类方法。