论文部分内容阅读
在模式识别领域的实际应用中,常常会出现某一类的样本数量远远少于其它类样本数量的现象,主要原因有两种:一种是原始数据自身分布呈现不平衡特性,另一种是某些特征提取算法为优化性能而产生的数据不平衡现象。特定类思想属于第二种,该思想为了充分考虑每个类的特殊信息,轮流将每个类的样本作为特定类,相应剩余所有的类则构成了大类做鉴别分析,由此产生了类不平衡问题。由于传统的Fisher鉴别分析(FDA)是基于两类的样本服从正态分布的假设的,因此难以在数据不平衡时获得很好的鉴别效果,为了解决这个问题,本文提出了三种新的方法从不平衡数据集中获取有效的鉴别特征。本文首先提出了一种平衡类鉴别分析(CBD)方法。对于每个特定类,我们从其对应的大类中选取它的部分近邻样本构成特定类的近邻样本集,接着将这个近邻样本集划分成与特定类相同样本数的多个子集,来获取平衡,再将划分好的平衡类与特定类结合成为新样本集,最后用FDA方法得到鉴别向量。为了去除鉴别向量的冗余信息,我们给从相关性大的新样本集中获取的鉴别向量加上了正交约束,即正交平衡类鉴别分析(OCBD),为了去除鉴别特征中的一些冗余信息,我们进一步提出了不相关类不平衡鉴别分析(UCBD)。接着,本文提出了一种基于主动学习的平衡类鉴别分析(ALCBD)方法。在构造特定类的平衡类时,我们设计了两种主动学习策略,首先采用随机划分的方法将近邻样本集划分成若干个与特定类大小相同的子集,考察每个子集与特定类形成的新的样本集的总体散度,或者考察每个子集与特定类形成的新的样本集的可分性,选取出信息量最大的样本集与特定类结合后,最后用FDA方法得到鉴别向量。最后,为了能够解决非线性可分的数据的类不平衡问题,我们提出了核平衡类鉴别(KCBD)。当原始数据呈现非线性分布时,上面的线性方法很难寻找到有效的分界面,本文通过将其转换到一个高维空间中,使在输入空间线性不可分的数据在该空间中变得线性可分。在核空间对特定类求取近邻样本集,构成若干平衡类,再将这些平衡类分别与特定类结合成为新样本集,做鉴别分析得到鉴别向量,我们同样也对鉴别特征进行了去相关处理(KUCBD)。在Coil20、USPS和Honda/USCD数据库上,我们对提出的几种解决类不平衡问题的算法与相应的比较方法做了比较,在考虑了每个特定类的信息之后,加上对类不平衡问题的解决,我们的方法在识别率上相对比较方法均有了一定程度的提高,充分验证了方法的有效性。