基于维诺图的不均衡数据集分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:stillzhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类作为数据挖掘中备受关注的一个研究方向,已经有了许多研究成果,这些成果大多在数据集中样本分布均衡的条件下能够取得很好的结果,但是在实际场景中,常见的需要被分类的数据集在分布状态上普遍都有不均衡的特点。所谓不均衡,指的是在整个数据集中,某个类别占的比例相对比较大,其他类别占的比例相对较小,占比大的样本实例一般划分为多数类,占比小的样本实例则划分为少数类。在类别比例不均衡的数据集里,少数类样本相对决策边界的分布具有差异性,越靠近决策边界被错分的可能性越大,基于此,本文提出通过数据集构造维诺图,按照少数类样本相对于决策边界的分布差异,赋予每个少数类样本不同的权重,计算权重符合规则的样本的采样概率,随机选取样本合成人工少数类。基于维诺图的不均衡数据集分类主要提出以下改进:1.新的边界识别方法。不均衡数据集中越靠近决策边界的少数类样本分类意义越高,传统的分类算法并未对这种差异性做出比较妥善的处理。本文通过构造维诺图找到分隔少数类与多数类样本之间的维诺边作为近似决策边界集合,计算每个少数类样本到边界集的最小距离作为少数类样本的边界度;2.基于边界度的采样策略。根据边界样本集确定新的边界,利用新的边界对边界度进行一定的变换后代入以自然常数e为底的指数函数,利用所有样本的函数值进行归一化,最终得到每个少数类样本的采样概率,然后随机选择样本进行过采样。上述两步称之为V-synthⅠ算法。3.处理局部不均衡。上述算法使用样本到决策边界的距离作为权重来划分边界样本,这种方式更灵活、准确。但是只根据少数类样本的分布差异计算采样概率,没有考虑多数类分布对少数类的影响,可能出现数据集整体均衡而局部不均衡的现象。为此,在V-synthⅠ算法的基础上使用层次聚类中的凝聚类方法对多数类聚类,形成若干个簇,计算每个簇中多数类的分布密度以及多数类簇对少数类样本点的影响因子,更新样本的采样概率。该算法称之为V-synthⅡ算法。通过人为构造特殊分布的数据集和选取分类问题中常用的UCI数据集用于实验分析,利用上述的两种算法分析各类别占比不均衡的数据集可以取得比较理想的分类结果。
其他文献
随着人们对海洋资源的深入开发,动力定位技术也得到了迅猛发展。然而,考虑到单艘动力定位船舶的作业能力和作业范围有限,而相比之下,多艘动力定位船舶协同作业不但能够提高海
超音速火焰喷涂(AC-HVAF)是制备优异结合强度和高致密度涂层的喷涂方式。喷涂喂料作为整个喷涂工艺的最重要的一环,一直以来备受关注。TiB2具有超高硬度(显微硬度34GPa)、高熔点(2
拖拽线列阵声纳是一种将水下传声器安装在拖揽上形成的线列阵,可探测潜艇辐射的噪音,实现对潜艇的远程监控。然而,只有首先获得线列阵声纳的姿态,才能确定潜艇所处的位置,因
单克隆抗体技术是现代生命科学研究的重要工具,在基因和蛋白质的结构和功能研究方面有着不可或缺的作用。本文主要是选取脂多糖(LPS)和淀粉样前体蛋白(C99)两种物质作为免疫
在科技日新月异的信息化时代,信息交流显得尤为重要。视频作为高效的信息传播形式,在日常工作生活中扮演着重要角色。得益于网络和多媒体技术的快速发展,视频的传播方式发生
随着信息技术和多媒体技术的发展与应用,人们工作和学习的方式发生了巨大的改变,在线工作、在线学习等网络化方式应运而生,智能终端的出现,促使线上活动更为方便。为适应这种
赵时春(1509-1568),字景仁,号浚谷,陕西平凉人。生活于明代正德、嘉靖年间,“嘉靖八才子”之一,据《明史·陈束传》载:“时有‘嘉靖八才子’之称,谓束及王慎中、唐顺之、赵时
沥青混凝土作为土石坝防渗系统在世界范围内得到了广泛应用,沥青混凝土心墙坝也成为了重要的坝型之一。堆石料与沥青混凝土都属于蠕变材料,大坝竣工蓄水后,坝体与沥青混凝土
物联网、智慧城市、智能家居等相关行业的快速发展,使得周边无线智能设备迅速增加,导致无线空口环境复杂多变、频谱资源需求迅速增加。如何让周边智能设备接入一个集中的数据
二十世纪七十年代以来,外语习得的研究从教师和教学转到学习者和学习。作为学习者个体因素的重要部分,外语学习焦虑和语言学习策略得到了外语教育者和研究者的密切关注。但是