基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法

来源 :电子学报 | 被引量 : 0次 | 上传用户:jueqidf_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.
其他文献
<正> 峰峦如聚,波涛如怒,山河表里潼关路。望西都,意踟蹰,伤心秦汉经行处,宫阙万间都做了土。兴,百姓苦;亡,百姓苦。上录曲文是元代散曲作家张养浩写的一支小令,曲牌名叫《山
产业转移是经济全球化的必然结果。近几年来,河南省积极承接产业转移,优化产业结构,带动地方经济发展,取得了一系列成果。但与此同时也暴露出在投资环境、产业配套、集聚区规
2020年3月28日凌晨,一通紧急电话打破了寂静的夜。山东海阳核电有限公司AP1000核电战2#机组大修工作因故未按计划进行,为防止整个大修工作面临延期风险,海阳核电公司紧急求援
我国65岁及65岁以上老年人口已达到总人口的近8.87%,其中城镇老年人口比例为8.33%,农村老年人口比例为9.42%,根据国际标准,我国已经进入老年型社会。由于农村劳动力的大量流
本文分析了在知识经济发展的条件下,成人高等教育的发展趋势,并对成人高等教育的课程设置和教学方法的改革进行了探讨。
本文介绍了香港资产支持证券和REITs业务发展过程及概况,分析了两类业务模式的主要特点,结合内地资产证券化业务现状,提出推动内地资产证券化业务发展的政策建议。
2020年1月24日至26日,中国船舶集团第七O五研究所旗下的西安海澜装备技术有限公司三亚海上运营合作团队一行人,正在三亚海滨进行海上赛车驾驶项目的试验运营工作。突然,新型
随着高速铁路旅客运输量的不断增长,调度员在调度指挥安全风险和控制方面面临的压力越来越大。根据高速铁路调度系统的实际情况,建立了相应的安全风险预警决策框架,分析了调
城乡居民基本养老保险是典型的共同事权,在划分过程中,分析了基金筹集和偿付阶段的现状,通过解读公共产品学说以及兼顾政府职能和效率原则等典型的理论学说为共同事权再划分