基于主动学习的标签噪声清洗方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:aqgcsw2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的快速发展和广泛使用,人们获取到的数据的规模也在不断增长,如何从数据中提取有价值的信息变得越来越重要。机器学习作为一种数据挖掘与分析的重要技术,其目的是从数据中挖掘关键信息,利用已有信息对未知信息进行预测,从而更好地为人们提供决策依据。监督学习是机器学习中的主要学习方式之一,而标签是监督学习的关键特征,对模型的训练起着至关重要的作用。现实生活中的数据由于在标记标签过程中受一些主观因素的限制,如专业领域知识的限制、人为标记错误等的影响,导致数据中可能存在一定程度的标签噪声,从而对模型产生严重的负面影响,因此,提高训练样本数据的标签质量对监督学习具有重要意义。目前,对标签噪声的处理大都是对样本进行噪声识别后直接过滤,这种处理标签噪声的方法虽然简单,但当数据中噪声样本含量较高时,丢弃这些噪声样本会造成数据信息的缺失。本文针对标签噪声过滤可能会丢弃过多样本这一问题,结合主动学习方法,对分类问题的标签噪声识别与处理方法开展研究。主要内容概括如下:(1)提出基于主动学习的标签噪声清洗方法ALNC(Active Label Noise Cleaning)。针对去除大量噪声样本时可能导致数据信息缺失的问题,本文提出基于主动学习的标签噪声清洗算法ALNC,通过主动学习,不断地从已有标签样本集中筛选出不确定性最高的样本交给人工专家对其进行检验,然后将专家标记好的样本放回到原有数据集中。通过这种迭代方法清洗掉大部分噪声样本的同时可保持原有数据的高利用率,噪声识别效果也优于传统的噪声过滤方法。(2)提出基于SPXY(Sample Set Partitioning based on Joint X-Y Distance)采样的标签噪声主动清洗方法。虽然ALNC方法既有很好的噪声识别效果,又能保持原有数据的完整性,但仍存在人工额外标记代价较高的问题,即筛选出的需要人工标记的疑似噪声样本中存在一定比例的正常样本。为了降低标签噪声清洗过程中的人工额外检验代价,在ALNC算法的基础上,提出基于SPXY采样的标签噪声主动清洗算法SPXY_ALNC。该算法既考虑到样本的不确定性,又考虑到样本的代表性,在保持原有噪声识别效果不变的情况下可以明显降低人工额外检验代价。本文针对传统噪声过滤方法噪声识别效果差、数据利用率不高的问题,提出基于主动学习的标签噪声清洗方法,通过主动学习的方式从训练样本集中筛选出部分样本,使尽可能多的噪声样本包含在其中;并且对算法进行改进,使筛选出的部分样本集中噪声样本数量占比更高,从而提高噪声清洗的效果。本文的研究成果对数据质量的改善具有一定的意义和应用价值。
其他文献
当今,国民经济的高速发展导致社会主义城市化进度不断推进,越来越多的人口涌向城市。据此带来的社会问题也不断增加,例如:人员拥挤导致踩踏等不安全事故的发生;候车大厅人员
在工业、经济或者科学研究等领域,都存在很多动态多目标优化问题,这类问题不仅包含多个相互冲突的目标函数,而且这些函数又会随时间改变而发生改变。由于动态多目标优化问题
随着大数据时代的来临,人们每天都要浏览和处理大量的数据信息。尤其是手机等多媒体设备的流行,图像数据大量涌现。对于海量图像数据的检索和管理也愈发的艰难。针对图像数据
支持向量机(SVM)是一种基于统计学习理论的机器学习方法。由于SVM在解决小样本、高维度以及非线性等问题上有着独特的优势,被广泛应用于人脸识别、文本分类以及图像处理等领
四旋翼飞行器的控制性能好坏对飞行安全具有重要意义。由于被控对象复杂且飞行过程中容易受到各种干扰,四旋翼飞行器难以建立精确的模型,因此如何设计合理有效的控制方法显得
本文采用了分数阶滑模理论和自抗扰控制理论相结合的方法,对船舶航向保持控制和航迹跟踪控制进行研究,旨在解决欠驱动船舶航向航迹控制问题,并提高船舶控制器在航向、航迹控
随着探测传感器资源日益多样化,将多传感器量测有效融合,可以获得更好的探测跟踪性能。为了保持目标的连续可观测性,优化调度传感器资源对目标进行探测尤其重要。随着传感器
难熔高熵合金具有高熔点的同时具有高熵合金的特性,表现出优异的高温性能,有望成为新一代高温材料,引起了国内外广泛关注。本文根据高熵合金设计理念,以Ti-Al-Cr-Nb-V为研究
图像增强是图像处理中处于一个主要地位。利用人工或机器对原图像增加一些信息,变换某些数据特征,突出图像中某些重要特征,或者抑制、掩盖图像中某些不需要的特征,使图像与视
针对欠驱动船舶路径跟踪中所存在的外界环境干扰及舵机受约束等问题,将径向基函数神经网络(radial basis function,RBF)与模型预测控制(model predictive control,MPC)相结合