基于主动半监督学习的不均衡数据集分类问题的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:babyface_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机存储技术和人工智能领域的发展,不均衡的数据集的研究越来越受到研究人员的关注。近年来,机器学习和数据挖掘领域常见的分类方法和采样技术针对传统的类别平衡的数据集有较好的分类效果,在不均衡数据集的条件下,少数类常被误分成多数类。主动学习和半监督学习都是利用少量标记样本和大量未标记样本的学习技术,利用大量未标记样本学习不仅能减小对未标记样本的标记代价,而且可以增强分类器的泛化能力。  本文尝试着运用主动学习思想和半监督学习方法相结合,提出了一种主动半监督协同分类算法(ActiveSemi-supervisedLearningCollaborationClassificationAlgorithm,简称ASCC算法)。该算法通过主动学习方法增加已标记样本的数量,满足了Tri-training算法训练所需足够的标记样本数量,从而减少协同训练学习所需要的次数和时间。  基于以上提出的方法,本文的主要工作如下:  (1)在已知少量的标记样本和大量的未标记样本的数据集的情况下,提出了基于样本KNN分布概率模型的主动学习算法。这种方法利用KNN的思想构造已标记和待标记样本之间的联系,通过这种联系建立概率模型,然后借助于基尼指数的专家评价标准,给出相对可能被标记的待标记样本。  (2)针对传统的Tri-training算法在处理不均衡数据集分类的不足,我们在训练样本的抽样、分类器的选择以及在最后的分类器集成方面对Tri-training算法做出了相应改进。通过UCI上不均衡数据验证了改进算法的有效性。  (3)针对少量已标记和大量未标记且是不均衡数据集的分类的问题,结合(1)和(2)中的方法,提出了基于改进的Tri-training的主动半监督协同训练学习算法。UCI上的不均衡数据集的实验结果表明,所提出的ASCC算法与以往算法相比有一定的性能提高,且表现出了一定的稳定性。
其他文献
随着人类对能源需求量的日益增加,以及煤、石油、天然气等一次能源的锐减,开发可再生能源的重要性得到提升。从目前来看,太阳能研究热持续升温。文章论述了一次能源的使用现状,并在此基础之上提出光伏发电的优势,通过对其国内外研究现状的分析,充分肯定了发展前景。对比分析各光伏发电拓扑结构的优缺点,选择双级式作为主要研究结构。以双级式作为主体架构的光伏并网发电系统分前级DC/DC和后级DC/AC两部分。其中,光
本文致力于研究S3PR网的死锁控制问题,得到具有最大行为许可性和多项式复杂度的控制策略是死锁研究的主要目的。本文提出为每个严格极小信标添加一个控制深度为一的控制库所
光纤光栅具有体积小、低损耗、低成本、抗电磁干扰等特点,并且通过对光栅的设计,可以得到各种丰富的光谱特性,利用这一特性可构成许多性能独特的光纤无源器件。光纤光栅滤波器就
学位
无轴传动是一门结合传动控制通信和机械等技术的综合性技术它能够在多轴同步传动领域,如伺服机床印刷轧钢或者机器人跟踪等中用虚拟电子轴取代机械传动轴来实现传动关系,有非常
学位
学位
在现代工业快速发展的今天,同步电机以其高效率、较强的过载能力以及能够对电网进行无功补偿的特点,使其广泛地应用在大功率工业场合。但在工频直接起动大功率交流电动机的过程中,产生的起动电流可能会达到额定电流的5~7倍,且持续时间长达10多秒。这种冲击电流一方面会使高压开关和电动机的寿命缩短;另一方面会造成电网的电压降低,引起继电保护的误动作,并且会对同一母线上的其他设备的工作造成影响。通过对比各种限定电
随着国家经济的快速发展,时常发生的火灾给工业生产带来了巨大的损失。传统的火灾探测传感器虽然对火灾的预防具有重要的意义,但它们有很多的局限性,尤其在复杂的工厂生产环
学位