基于增强合成采样和集成技术的不平衡数据处理分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jerrylucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,数据不平衡是世界上普遍存在的问题。然而,对不平衡数据进行分类的问题在不同部门中不时增加。为了克服一些标准的不平衡数据技术无法准确平衡多数类和少数类的挑战,用于不平衡数据分类的基于增强的合成采样(ABS)被提出了。ABS方法连接特征并增加现有样本的样本数量以生成合成数据。本文的主要研究贡献为:(1)本论文通过建模将输入数据与训练好的特征串联起来,确定输入数据中特征之间的关系,得到训练样本特征作为权重。为了将输入数据与训练好的特征进行拼接,并找出特征之间的关系,本文提出了一种基于增强的合成采样方法,通过拼接各种特征,使特征表征每个数据样本。首先,本文将输入数据集作为标签和特征插入,对模型进行训练,得到训练样本特征作为输出。其次,本文将训练特征和输入数据集连接起来。最后,本文得到训练样本特征作为输出结果。主要目标是创建与各种特征的关系并增强特征以提高算法的性能。(2)本论文使用样本替换方法,从训练样本特征中随机选择样本特征值,放大合成数据的多样性,生成临时合成数据。首先,本文取样本值,随机样本一个是第一个特征的值。其次,这项工作实现了采样过程,以获取临时合成数据值的下一个样本特征值,直到样本特征值。最后,本文生成临时合成数据。本论文使用具有替换方法的样本生成临时样本数据。目的是增加数据的多样性。(3)本论文通过建模将临时采样数据与少数数据连接起来,创建模拟实际观察特征之间关系的合成数据,以预测最终合成数据的特征。本论文使用模型将少数数据与临时数据连接起来,以预测合成数据。当特征分类器和临时人工数据集可用时,最后阶段涉及使用连接的少数数据和连接的临时合成样本数据作为输入数据来估计最终合成数据集的特征。目标是使合成数据再现具有真实观察的特征关系。(4)此外,ABSBoost是所提出的方法和提升技术的混合体。在不平衡问题方面,混合对比了两种最先进的基于集成的方法的性能。通过集成训练方法解决类不平衡问题很普遍,本文将提出的ABS与boosting方法相结合,创建了一种称为ABSBoost的方法。执行ABS是为了在分类器训练的每次迭代中增加少数样本,因此每个弱学习器都在一个合理平衡的子集上进行训练。本论文将ABSBoost与最先进的基于集成的方法进行比较,包括RUSBoost和Under Bagging。与之前的研究相比,这项研究显示了所提出的方法和AUC的平均值(曲线下面积)在实验时能生成良好数据样本的能力。根据实验结果,所提出的方法优于现有方法。因此,实验结果表明,所提出的ABS方法和ABSBoost在给定数据集上是有效的。
其他文献
遥感影像变化检测旨在从多时相遥感影像中确定与获取感兴趣的地物要素变化,这在城市规划、环境监测、经济发展、国防建设等领域有重要的应用。深度学习为遥感影像变化检提供了新思路,它能够从多时相影像中自动学习特征,高效准确地提取变化信息。然而,基于深度学习的变化检测方法存如下问题:变化信息较少,相对大场景中的非变化信息是稀疏的,标注数据类别间存在不平衡;需要手工标注大规模数据集进行训练,标注成本极高。本文围
学位
近年来,由于网络的迅速发展,复杂网络变得越来越难以有效的检测,不仅是因为网络的规模的骤增,还因为网络中的节点包含着丰富的内容。另外,网络的节点也不在仅仅处于一个社区内,还有可能与多个社区有所联系。因此,对于重叠社区和属性社区的检测,是本文所研究的重点内容。如何从复杂的网络中识别关键的信息,发现其社区结构,有着极其重要的现实意义。社区结构作为复杂网络的一种重要特征,对于理解整个网络的结构特性、节点功
学位
目的通过诊察并对比多囊卵巢综合征患者与健康女性小腿段足三阴经的阳性反应,观察多囊卵巢综合征患者足三阴经的经络腧穴反应现象。方法以18-35岁的40例多囊卵巢综合征患者(多囊组)和35例健康女性(健康组)为研究对象,应用传统经络诊察法和人体压痛力学定量测试仪,分别于PCOS组和健康组的非经期诊察双侧小腿足三阴经阳性反应物(条索、结节、松软、凹陷等形态异常)及压痛的出现情况、以及测定压痛VAS值及压痛
学位
基于快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,DPC)被提出以来,由于其思想简单,所需参数少,聚类高效等优点被广泛应用。然而,随着对DPC算法的深入研究,一些问题和不足也逐渐暴露出来:截断阈值(9((8)难以确定、聚类中心难以准确选择、样本划分易导致连带错误、对具有复杂流形结构、类簇之间密度差异较大数据
学位
近年来,因为人类的步态即使在远距离低分辨率下也具有很强的辨别能力,所以步态识别越来越受到人们的关注。但不同视角下行人的步态图像序列差异较大,因此步态识别的性能易受到视角变化的影响,影响最终的识别率。针对这一问题现有的算法主要分为以下三类:步态能量表征模板、提取视角不变性特征、学习不同视角下的映射关系。而本文提出了利用图卷积网络来解决由视角差异引起的识别率低的问题。本文的主要工作和创新点如下:(1)
学位
复杂网络领域中,链路预测是其中一个关键的研究方向。链路预测就是根据网络的已知拓扑信息去预测网络中丢失的连边、潜在的连边或在未来某一时刻将会出现的连边,甚至可以找出网络数据集中错误的连边信息。目前,科学家针对链路预测问题提出了不同的算法。基于节点相似性算法分为基于局部信息的相似性算法和基于全局信息的相似性算法,局部相似性指标使用网络中局部邻居和结构信息进行相似性大小预测,计算复杂度低,准确度低;全局
学位
遥感图像语义分割旨在为遥感图像中的每一个像素点都分配相应的类别。目前基于深度学习的遥感图像语义分割已经在军事、地质、城市规划等领域出现了许多成功的应用案例,然而随着遥感图像应用范围不断扩大,给遥感图像的语义分割任务带来了许多新的难题,因此它仍是一项具有挑战性的任务,表现在:第一,遥感图像中的各类地物尺寸各异,尺度差异较大,若要准确地对地物目标的类别进行预测以及完整地对地物目标的边界进行分割,需要提
学位
三维目标检测是自动驾驶环境感知中的关键技术,可以为安全可靠的自主驾驶提供基础。激光雷达和彩色(RGB)相机是自动驾驶汽车上最重要的两个传感器,分别获取点云和图像。点云包含精确的距离信息,但稀疏且无序,进行目标检测时,对低分辨率或遮挡目标检测困难,存在误检和漏检的情况。图像包含RGB色彩值,具有纹理和边界等细节信息,但是因为成像时近大远小的特点,以及距离信息的缺失,在三维目标检测任务中无法估计出目标
学位
利用超分辨率算法获取高分辨红外图像是解决当前我国红外成像器件制造水平低导致成像效果差、成本高昂难以满足需求的一种有效途径。基于多视图像的超分辨率算法以其更好的成像性能成为研究热点,其中又以深度学习超分辨算法最受关注。然而,现有深度学习超分辨率算法训练时用的样本对对应的并非真实的红外图像降质过程,且忽略了高-低分辨率图像的相互配准问题,使得其在实际应用中效果不理想。针对这一问题,本文提出了一种基于自
学位
由于科技的发展,高维数据迅速出现在各行各业。噪声、冗余特征也随之而来,这加大了数据处理的工作量和难度。因此,数据降维是必须的。由于可以保留原始的特征,特征选择成为了降维的更佳选择。近年来,无监督特征选择算法越来越多,并且都取得了不错的效果。但是这些算法仍存在一些问题,比如伪标签间的相互影响被忽略、数据间的链接信息没有被充分利用以及使用谱聚类时不能保证伪标签的非负性等。为了解决这些问题,本文提出了三
学位