基于非参数统计的不平衡数据混合抽样算法研究

来源 :华北理工大学 | 被引量 : 0次 | 上传用户:tjbxgb123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今对不平衡数据的研究已有较多的成果,大多数专家学者都集中在算法层面上,在数据层面研究较少且对欠抽样的研究较多,过抽样的研究较少。大数据时代不仅仅需要欠抽样,过抽样同样重要。针对上述问题,对利用Topsis方法选择数据集多数类的“理想”样本,通过计算与理想样本的贴近度进行欠抽样达到数据平衡、利用非参数的Walsh平均方法进行过抽样达到数据平衡、利用Topsis欠抽样方法与Walsh平均过抽样方法进行欠过融合的混合抽样达到数据平衡的三种抽样算法进行研究。最后,对三种消除数据不平衡方法进行比较,探讨各自适合的数据集的不平衡度。主要研究内容及所得结论如下:1)利用Topsis方法选择数据集多数类的“理想”样本,选择与理想样本贴近度低的样本进行欠抽样以达到数据平衡,对平衡数据进行Logistic回归分析,所得结果的分类精确性评判指标AUC值为0.929,明显高于基于原样本、Easy Ensemble欠抽样、SMOTE过抽样三种模型所得AUC值。2)利用非参数的Walsh平均方法进行过抽样达到数据平衡,对平衡数据进行Logistic回归分析,所得结果的分类精确性评判指标AUC值为0.859,高于基于原样本、Easy Ensemble欠抽样、SMOTE过抽样三种模型所得AUC值。3)使用Topsis欠抽样方法与Walsh平均过抽样方法进行欠过融合的混合抽样达到数据平衡,对平衡数据进行Logistic回归分析,所得结果的分类精确性评判指标AUC值为0.880,高于基于原样本、Easy Ensemble欠抽样、SMOTE过抽样三种模型所得AUC值。4)Topsis、Walsh混合抽样方法适用于十级样本差数据、百级样本差数据;Topsis欠抽样方法适用于千级样本差数据以及万级样本差数据。图28幅;表50个;参45篇。
其他文献
期刊
近年食品安全成为我国重大社会热点问题。2011年出现的“一滴香”等食品安全问题,都是由有害食品添加剂造成的。传统检验非法食品添加剂的方法有质谱法等,但这些方法灵敏度低、精确度差。光子晶体光纤(Photonic Crystal Fiber,PCF)的结构多样性赋予其增强拉曼散射信号灵敏度及增益系数的能力,结合表面增强拉曼散射效应(Surface Enhanced Raman Scattering,S
学位
空天地海一体化网络部署将极大提升面向多样化海洋服务应用的数据全生命周期处理效率,有力支撑海洋环境数据获取、存储与计算、分析与应用。多步长预测能够获取更长时间间隔的海洋环境变化信息,更有利于面向海洋智慧应用的高效管理和及时决策,对海洋环境保护、海洋渔业发展和海洋资源开发具有重要意义。以真实采集的海洋环境数据为研究对象,基于深度学习理论框架,研究海洋环境时序数据多步预测方法,同时开展海洋环境观测监测系
学位
<正>羊布鲁氏菌病是由布鲁氏菌病引起的传染性疾病,不仅能够感染牛羊群体,还可以传播给人类。并且传播途径很广泛,一些没有明显症状的隐性感染病羊可以随时对羊群和饲养人员造成严重威胁。最重要的是羊群或饲养人员感染布鲁氏菌病后,就会发生危害严重的流产现象,并且很难彻底治愈,给畜牧业和人类的健康发展带来无法估量的损失。在此将羊布鲁氏菌病的病原学特点、流行特点、
期刊
肠道菌群在肿瘤治疗中的作用在近几年受到广泛关注,包括化疗及免疫治疗在内的抗肿瘤治疗疗效均受到肠道菌群的调节。放疗是抗肿瘤中的重要组成部分,其疗效及不良反应发生风险受到多种因素的影响。近期研究表明,肠道菌群通过调节机体免疫系统影响放疗敏感性以及放射性黏膜炎的严重程度。该文系统地回顾了描述肠道菌群调节放疗疗效及其黏膜毒性的研究,希望通过调节肠道菌群以提高放疗疗效并减轻放疗副反应。
期刊
本文介绍了羊布鲁氏菌病的症状及特点,总结了羊布鲁氏菌病的防控措施,以期为养殖户提供参考。
期刊
不平衡数据的分类问题一直以来都是研究的热点,一般有两种研究方式,数据层面的研究和算法层面的研究。许多领域的不平衡数据都含有文本属性,如经济、医疗、工业等领域。现阶段,对于含有文本型不平衡数据的研究,一般采用简单的数字编码或者One-Hot编码,这些不能很好地反映出不同特征之间的差别,导致分类效果存在一定的偏差。因此,为了更好地处理含文本属性的混合数据集的分类问题,将文本挖掘工具Word2vec方法
学位
布鲁氏菌病(简称布病),是制约梅花鹿产业发展的主要人畜共患病之一,不仅对梅花鹿产业造成重大的经济损失,也给养殖人员带来一定的健康危险。为了降低该病发生的概率,采用净化技术来逐步控制鹿场布病的感染和传播,提升生物安全防护水平,具有重要意义。
期刊
公共场所内要求每个人正确佩戴口罩是疫情期间一项有效的防护措施,有利于保障人民的生命安全和身体健康,若能实现公共场所下口罩佩戴的智能化监管,这将大大减轻工作人员的工作量并提高监管效率。深度学习有强大的特征学习能力,解决了很多复杂的模式识别难题,课题基于深度学习对公共场所口罩佩戴检测展开研究,并实现了一个口罩佩戴检测系统。主要工作及其创新点如下:1)由于目前未有公开统一的用于复杂场景口罩佩戴检测的数据
学位
文章主要探究了非线性脉冲延迟微分系统的镇定化问题。若非线性脉冲延迟微分系统满足单边多项式增长条件,则可能在有限时间内趋于无穷大。为压制非线性脉冲延迟微分系统趋于无穷大,先引入多项式随机噪音,随后为了镇定不稳定的系统又引入线性随机噪音。第一章主要介绍了非线性脉冲延迟微分系统的相关研究背景、研究现状、研究意义以及相应的符号说明,为非线性脉冲延迟微分系统的镇定化奠定了相关的理论基础;第二章主要介绍随机微
学位