论文部分内容阅读
数据分类作为数据挖掘中备受关注的一个研究方向,已经有了许多研究成果,这些成果大多在数据集中样本分布均衡的条件下能够取得很好的结果,但是在实际场景中,常见的需要被分类的数据集在分布状态上普遍都有不均衡的特点。所谓不均衡,指的是在整个数据集中,某个类别占的比例相对比较大,其他类别占的比例相对较小,占比大的样本实例一般划分为多数类,占比小的样本实例则划分为少数类。在类别比例不均衡的数据集里,少数类样本相对决策边界的分布具有差异性,越靠近决策边界被错分的可能性越大,基于此,本文提出通过数据集构造维诺图,按照少数类样本相对于决策边界的分布差异,赋予每个少数类样本不同的权重,计算权重符合规则的样本的采样概率,随机选取样本合成人工少数类。基于维诺图的不均衡数据集分类主要提出以下改进:1.新的边界识别方法。不均衡数据集中越靠近决策边界的少数类样本分类意义越高,传统的分类算法并未对这种差异性做出比较妥善的处理。本文通过构造维诺图找到分隔少数类与多数类样本之间的维诺边作为近似决策边界集合,计算每个少数类样本到边界集的最小距离作为少数类样本的边界度;2.基于边界度的采样策略。根据边界样本集确定新的边界,利用新的边界对边界度进行一定的变换后代入以自然常数e为底的指数函数,利用所有样本的函数值进行归一化,最终得到每个少数类样本的采样概率,然后随机选择样本进行过采样。上述两步称之为V-synthⅠ算法。3.处理局部不均衡。上述算法使用样本到决策边界的距离作为权重来划分边界样本,这种方式更灵活、准确。但是只根据少数类样本的分布差异计算采样概率,没有考虑多数类分布对少数类的影响,可能出现数据集整体均衡而局部不均衡的现象。为此,在V-synthⅠ算法的基础上使用层次聚类中的凝聚类方法对多数类聚类,形成若干个簇,计算每个簇中多数类的分布密度以及多数类簇对少数类样本点的影响因子,更新样本的采样概率。该算法称之为V-synthⅡ算法。通过人为构造特殊分布的数据集和选取分类问题中常用的UCI数据集用于实验分析,利用上述的两种算法分析各类别占比不均衡的数据集可以取得比较理想的分类结果。