基于粒球计算的标签数据采样算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:facexy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有监督学习是机器学习的重要分支,它要求数据不仅要有属性,还要有标签,而数据的好坏会直接影响到算法的性能。现有的标签数据中,大规模数据、不平衡数据、噪声数据屡见不鲜,因此在对数据进行分类之前,需要特定的采样算法对数据进行预处理,以约简样本数量、降低数据不平衡度、减少噪声,以此提高有监督学习中各种分类器的分类性能。粒球计算方法是一种高效、简单、扩展性强的方法,它基于多粒度的思想,将完整的数据集通过多次简单的聚类划分,变成一个个独立且完整的数据集,每一个数据集即为一个粒球。现有的采样算法要么为特定的数据集而设计,要么针对特定分类器,很少有通用的采样算法能够适用于大部分数据集和分类器。本文借助粒球计算思想,针对现有采样算法普适性低的问题,提出了基于粒球边界点的采样方式,并在UCI数据集上进行了实验验证,主要研究内容如下:1.本文基于粒球计算方法,将数据集划分为多个粒球,结合粒球在数据空间中的分布特征,采样粒球边界同类样本点。并以样本维度确定采样比例,以粒球纯度和样本数量确定粒球停止划分条件,以最近邻粒球标签确定粒球是否过滤。2.针对不平衡数据集,本文对粒球采样算法进行了修改,保留少数类粒球的样本点,将多数类粒球根据粒球中样本数量进行排序,少数点粒球全部保留,多数点粒球进行边界采样,以此保证正负样本数量基本一致。3.为了验证本文所提出方法的有效性和通用性,本文将所提出的方法运用在了多种不同的数据集和分类器上,并为数据集添加了不同比例的噪声。而针对不平衡数据集,本文利用G-mean作为评价指标来衡量算法的性能,并将其与经典的算法进行对比。通过实验证明,本文提出的算法对多种数据集和分类器都有良好的效果,特别在噪声数据集下表现比现有的算法效果更好。
其他文献
网络流量分类之所以一直是学术界和产业界共同关注的热点之一,是因为它对于网络安全监管、网络发展规划和网络流量调度具有十分重要的意义。其中,基于深度学习的集中式训练方法是研究人员的关注焦点,这种训练模式需要将客户端的私有流量集中部署在网络运营商的大型设备中用于存储和计算海量数据。但是集中式训练过程频频出现数据泄漏等安全隐患,这将严重威胁客户的隐私。而联邦学习能够在不集中原始流量的情况下,协同网络运营商
学位
抑郁症群体执行功能受损方面的研究很多,但从步态操纵的角度去研究改善抑郁症群体执行功能的研究不多。运动心理是一个心理模拟运动的过程,没有实际的动作。有研究表明,前额叶皮层参与了步态运动想象和步态控制,但支持这种观点的证据并不一致。本研究旨在通过两个实验来探究抑郁症大学生执行功能与行走步态的关系,验证行走步态控制是否可以改善抑郁症群体的执行功能,并利用近红外技术探究行走步态控制影响执行功能的生理基础。
学位
目的:随着国家对高等教育的重视,大学生群体越来越庞大。他们的心理问题受到了相当程度的重视,然而在这个群体中有一个小群体却被大家所忽视,那就是肢体活动受限的大学生。这个群体中的学生因为各种原因肢体活动受到了限制,致使不能像大部分人一样自由的进行体力活动,伴随而来的就有可能是各种心理问题。本研究针对肢体受限大学生的心理问题开展研究,调查广州大学肢体受限大学生的日常体力活动情况,研究体力活动和情绪调节相
学位
网络表示学习是通过机器学习方法将高维稀疏数据转换为低维稠密数据,现有的工作主要集中在静态网络和动态同质网络。然而绝大部分网络属于动态异质网络。随着时间推移,网络中节点和边的增加或删除会导致网络的拓扑结构和语义发生变化。目前,大多数动态异质网络表示学习方法使用快照对动态异质网络定义,其前提是需要确保相邻两个时刻的子网络的平滑演化。但是,在一些真实网络中,子网络的节点和边存在巨大差异,基于快照的划分方
学位
近年来,随着深度学习的发展及非限定条件下的人脸数据采集,人脸识别效果日益完善。在日常生活中,人脸识别技术也得到了广泛的应用,如门禁系统,扫脸支付等。但在非限定条件下,人脸识别依旧存在着一些问题,有研究表明:相比于近正脸的人脸识别效果,侧脸的识别显得不尽人意。其中有两个因素导致这一现象:一方面,人脸的姿态偏转会引起自遮挡和非线性面部扭曲等现象,增大了模型对侧脸图像提取特征的难度。另一方面,对于非限定
学位
在学前儿童的幼小衔接阶段,学界不断强调科学的入学准备,不仅因为其对儿童进入小学后的学业表现具有预测性,更因为它对儿童的终身学习、成长和未来发展都具有深远的重要意义。而入学准备不仅要关注儿童自身的准备,更应关注家庭环境的准备。本研究通过调查大班儿童的家庭社会经济地位、家庭学习环境及其入学准备的基本现状,探讨家庭社会经济地位与家庭学习环境对儿童入学准备的影响机制,最终提出创设优质家庭学习环境的教育建议
学位
工业物联网在应用过程中需要数据共享,数据共享的双方会存在访问控制问题。因此在一些需要严格保证数据隐私性的工业物联网应用中,确保数据拥有者能够完全控制访问者的访问权限是实现这些应用的关键。工业物联网设备收集到信息后需要保存到数据库中,使用中心化的数据库会带来单点故障问题。数据拥有者出于自身的利益会篡改或者否认历史数据,确保数据能够高效安全的存储和历史数据不会被篡改是这些应用落地的基础保障。以下是本文
学位
随着信息技术的发展和传统产业的数字化转型,网络被广泛用于刻画复杂系统数据间关系,常见的如引文网络、社交网络等,对网络数据进行有效地表示有利于为下游的网络分析任务提供支撑。传统的邻接矩阵或相似矩阵表示方法,在面对大规模网络时存在高维稀疏的缺点,不利于后续使用机器学习模型进行网络分析。网络表示可以把原始网络映射到向量空间,并保存原始网络的信息。但现有的网络表示方法大多仅考虑了网络中的局部信息,忽略了网
学位
现实生活中描述特定场景的相关属性以不同的频率采集形成的数据称为混频数据。这类数据的特点有三方面,第一,不同属性采集到的数据量不同;第二,各个属性的采样频率恒定不变;第三,混频数据是一种时序数据。本文针对这样的混频数据预测问题,借用深度学习的方法进行了研究。由于数据的采集代价及采集方法不同,在统一的频率下收集数据不太现实。但原始混频数据中蕴含着丰富的信息,合理地捕获这些信息有利于实现最终预测任务。传
学位
虚拟社区感是虚拟社区成员对于彼此以及整个社区都能产生的一种归属感、认同感,是基于虚拟社区情境下的社区感。主观幸福感是个体对于自己的生活质量做出的整体性评估,对于个体的生活满意度有着非常重要的影响。已有研究发现,个体的社区感会对幸福感产生影响。虚拟社区在我国蓬勃发展的同时,也引发了一些社会问题。由于虚拟社区所具有的匿名性特点,导致网络自我不受外界现实的约束,这就可能助长虚拟社区成员不负责任的表达,严
学位