论文部分内容阅读
随着海量数据的出现,数据挖掘成为目前最有应用价值的领域之一,数据挖掘技术从这些大量的无结构的数据中提取有效的隐含价值的信息,从而提高决策效率。不平衡数据分类是数据挖掘领域中一种特殊并且重要的情况,不平衡问题即在同一数据集中某些类的样本远远大于其他类的样本,数据呈偏态分布。数据不平衡现象普遍存在于社会应用中,如网上银行欺诈检测,人脸识别,臭氧水平预测,肝脏和胰腺疾病的预测等。在类分布不平衡问题中,少数类数据在数据挖掘中具有特殊的意义,稀有的数据往往存在更大的价值,如果分类错误会带来很大的损失。因此,研究如何提高少数类的分类能力和不平衡分类性能具有重要的理论意义和应用前景。对比模式具有良好的区分能力,基于对比模式的分类方法可以从样本内部特征分析,具有更好的可解释性和准确性,然而,当数据分布不平衡时,基于对比模式的分类效果并不好。因此,本文首先从二类不平衡数据出发,提出一种新的基于对比模式的不平衡分类方法,并将其扩展到多类不平衡问题中,提出一种新的分解策略并将其应用于基于对比模式的不平衡分类方法。本文的主要工作如下:(1)在基于对比模式分类算法中,现有方法挖掘出的大量的对比模式,且存在对分类作用并不大的模式,造成了较大的时间和空间的消耗,此外,传统分类方法按照支持度之和来计分分类,在不平衡环境下,多数类挖掘出的对比模式数量多且支持度高,少数类挖掘的对比模式数量少且支持度低,导致多数类的对比模式支持度之和远远大于少数类的对比模式支持度之和,分类结果会偏向多数类。针对此问题,本文提出一种新的基于对比模式的分类算法,该方法先对模式进行质量检测,对对比模式集进行有效过滤,提高对比模式的质量,同时,根据模式质量构建加权分类器,降低分类器对多数类的偏向。实验结果表明,高质量的对比模式构建的分类器性能更好,并且,文章算法可以有效降低分类器对多数类的偏向,提高少数类的识别能力。(2)在多类不平衡环境下,类别之间的数据特征和分布特征更为复杂。由于传统的分解方法加重了分类子集合中的不平衡程度,并产生出大量的子集合,糟糕的子分类器质量严重影响了分类器整体性能。为此,本文提出一种基于层次聚类的多类不平衡分类方法,该方法基于层次聚类的思想对多类不平衡数据进行分解,根据类别相似度分解子集合,以此降低类别间的不平衡性,同时,有效控制了子集合数量。在分类器构建阶段,采用基于对比模式的不平衡分类方法训练分类器,充分利用数据的内部特征,降低分类器对多数类的偏向,提高分类器质量。实验结果表明,基于相似度分解多类不平衡数据集,可有效降低子集合间的不平衡程度,同时,该分解策略应用于基于对比模式的不平衡分类方法,可有效提高分类性能,特别是在少数类的分类中。