基于鉴别分析的类不平衡学习

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:xiaoya2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在模式识别领域的实际应用中,常常会出现某一类的样本数量远远少于其它类样本数量的现象,主要原因有两种:一种是原始数据自身分布呈现不平衡特性,另一种是某些特征提取算法为优化性能而产生的数据不平衡现象。特定类思想属于第二种,该思想为了充分考虑每个类的特殊信息,轮流将每个类的样本作为特定类,相应剩余所有的类则构成了大类做鉴别分析,由此产生了类不平衡问题。由于传统的Fisher鉴别分析(FDA)是基于两类的样本服从正态分布的假设的,因此难以在数据不平衡时获得很好的鉴别效果,为了解决这个问题,本文提出了三种新的方法从不平衡数据集中获取有效的鉴别特征。本文首先提出了一种平衡类鉴别分析(CBD)方法。对于每个特定类,我们从其对应的大类中选取它的部分近邻样本构成特定类的近邻样本集,接着将这个近邻样本集划分成与特定类相同样本数的多个子集,来获取平衡,再将划分好的平衡类与特定类结合成为新样本集,最后用FDA方法得到鉴别向量。为了去除鉴别向量的冗余信息,我们给从相关性大的新样本集中获取的鉴别向量加上了正交约束,即正交平衡类鉴别分析(OCBD),为了去除鉴别特征中的一些冗余信息,我们进一步提出了不相关类不平衡鉴别分析(UCBD)。接着,本文提出了一种基于主动学习的平衡类鉴别分析(ALCBD)方法。在构造特定类的平衡类时,我们设计了两种主动学习策略,首先采用随机划分的方法将近邻样本集划分成若干个与特定类大小相同的子集,考察每个子集与特定类形成的新的样本集的总体散度,或者考察每个子集与特定类形成的新的样本集的可分性,选取出信息量最大的样本集与特定类结合后,最后用FDA方法得到鉴别向量。最后,为了能够解决非线性可分的数据的类不平衡问题,我们提出了核平衡类鉴别(KCBD)。当原始数据呈现非线性分布时,上面的线性方法很难寻找到有效的分界面,本文通过将其转换到一个高维空间中,使在输入空间线性不可分的数据在该空间中变得线性可分。在核空间对特定类求取近邻样本集,构成若干平衡类,再将这些平衡类分别与特定类结合成为新样本集,做鉴别分析得到鉴别向量,我们同样也对鉴别特征进行了去相关处理(KUCBD)。在Coil20、USPS和Honda/USCD数据库上,我们对提出的几种解决类不平衡问题的算法与相应的比较方法做了比较,在考虑了每个特定类的信息之后,加上对类不平衡问题的解决,我们的方法在识别率上相对比较方法均有了一定程度的提高,充分验证了方法的有效性。
其他文献
多尺度几何分析是在小波变换基础上发展起来的图像稀疏表示工具,其不仅继承了小波变换所具有的多分辨率、时-频局域性,而且还满足各向异性以及低冗余等特性,是图像稀疏描述的
电机以其优异的性能在各个领域得到广泛地应用,电机的性能和质量指标准确地测量是非常重要的。本文研究了电机的工作特性测试技术,主要包括电机动、静态力矩、转速和效率的测试技术。根据电机测试技术的要求,设计出能够满足相关技术指标要求的电机力矩测试设备。这套设备在测量电机的力矩时分为动、静态力矩的测量,对动态力矩采用基于基座测量原理的应变法进行测量,此环节力矩信号采取无线方式进行传输;对静态力矩采用的是基于
齿轮箱是在机械设备中使用频率高、应用范围广的部件之一,因此对齿轮箱进行实时监测和故障诊断在工业生产领域具有重大的经济和安全意义。本文将齿轮箱作为研究对象,以DSP芯片处理器TMSF28335为核心开发了一种能够监测诊断故障的系统,在软件的开发过程中将经验模态分解算法嵌入到诊断系统中进行数据处理,并将其应用于齿轮箱常见的几种故障特征量提取中,为进一步实现故障诊断提供了良好的基础。嵌入式故障诊断系统是
随着城市现代化的迅速发展,集中供热已成为供热发展的大势所趋,科学的监控集中供热系统亦成为目前亟需解决的问题。气候补偿器可以有效地解决集中供热系统中换热站处的控制和管
分布估计算法是一种通过对优势候选解构建概率模型和采样,探索可能的解空间的随机优化技术。在分布估计算法中没有传统遗传算法的交叉和变异操作,取而代之的是对选择出来的优势
双线性系统可以描述工业过程中的许多对象,并且由于双线性项的存在,使其描述精度优于传统的线性模型,在控制中得到了广泛应用。实际工程中,扰动的存在严重影响到系统的性能,
由于非线性系统的多样性与复杂性,至今仍未提出普遍而有效的设计方法,尤其是针对参数不确定的故障非线性系统的自适应容错跟踪问题。本文以模糊控制理论与backstepping控制技术
近年来,由于风电行业的高速发展,其运行设备问题表现突出,其中风力发电机控制系统的故障诊断技术研究受到了高度关注,本文基于集成学习理论,对风电控制系统的并发故障诊断方法进行深入探讨,提出了一种诊断精度高、适用范围广的并发故障集成诊断方法。目前无论是风电设备的机械故障诊断,还是其控制系统故障诊断,多是对单一故障的研究,并发故障诊断的研究工作仍然非常薄弱。本文从双馈风力发电机控制系统(简称控制系统)出发
脑机接口技术(BCI)是一种全新的革命性的交互手段,它不需要实际动作仅凭特定模式的脑电信号就可以有效的与外界进行通信或控制外在事物,即所谓的“意念控制”,对其的研究具有重
随着人们对于飞机性能的不断追求,由于传统固定翼飞机不能满足不同的飞行任务的要求,可变体飞行器的概念应运而生。可变体飞行器利用变形翼技术通过改变机翼的形状,从而实现飞行