不平衡数据处理的新方法——基于样本相似度的少数类合成法

来源 :数理统计与管理 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据.针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通过样本相似度改进SMOTE算法中的距离测量方式,提高了算法的分类精度.实验结果表明,基于SMUP算法的单分类器能有效提升少数类的分类正确率,同时解决了SMOTE对定类型特征变量距离测度不佳的难题;基于SMUP算法的组合分类器分类效果也明显优于SMOTE衍生算法;最重要的是,SMUP将连续型、混合型和定类型这三种特征变量的距离测度整合到一个统一的框架下,为实际应用提供了便利.
其他文献
2010年如皋市级机关事务管理局紧紧围绕“重点工作创优,综合考核晋级”的总体目标,以“提升服务、完善职能、强化保障、助推发展”为己任,通过积极开展“服务质量提升年”活动,成
据不完全统计,七七事变后,回国投身抗日战争的青年工人、学生有一万多人,其中有相当数量的福建归国华侨。山西是中国八年抗战的主要战场之一,也活跃着不少闽籍归侨的身影,下
跨国公司各利益主体利益均衡的结果将决定跨国公司的目标取向.本文的几个博弈模型所表述的问题,如股东之间控股权与控制权的关系,东道国政府对跨国公司优惠政策的力度,东道国
本文基于串联的联合诊断形式,联合应用信息分析与最大似然法对卵巢囊肿进行早期鉴别诊断,并在对两种方法的真实性和可靠性做过评价后,应用Delphi7.0程序开发软件对两种方法在
本文运用我国31个省、市、自治区及东、中、西、东北地区2000-2012年的城镇居民在外饮食消费和可支配收入数据,在剔除价格影响的基础上,对居民在外饮食消费的差异性问题,通过
作者简介:韩佳宇(1992.05-),男,汉族,辽宁朝阳人,沈阳师范大学国际商学院金融学专业。  摘要:总所周知,工程的合同主要是指,建设单位与施工企业之间建立起来的条款,通过双方定力的条款,明确双方各自的权利与义务。之后所承认的关系上建立特殊的承揽合同。这个过程中,建筑行业是具有特殊性的,市场实行的先期进行定而后进行成交的交易方式,这种方式的采用的有点是能够快速方便的定力工程合同,但是其也有巨大
第10届中国国际机床展览会(CIMT2007)是在“十一五”期间举办的国际化机床专业大型展会,是在贯彻落实《国务院关于加快振兴装备制造业的若干意见》和即将出台的“数控机床发
11月2日,国资委管理局系统职业技能大赛决赛在虎峪园林山庄隆重举行。这次大赛是管理局加强技能人才队伍建设,提升职工队伍业务素质的重要步骤和具体实施,是管理局系统“基础工
作者简介:张志民(1989- ),男,山西晋城人,陕西师范大学国际商学院硕士研究生,研究方向为人口资源与环境经济学。  段笑培(1989-),女,河南洛阳人,陕西师范大学国际商学院硕士研究生,研究方向为国际贸易学。  摘要:本文详细比较分析了《海峡两岸服务贸易协议》开放领域的对等性,发现协议中虽然存在台湾方面开放的服务部门种类多于大陆,但台湾对大陆的自然人进入进行了严格的限制,对大陆企业在台合资公
由中国饲料工业协会主办的“2013宠物饲料(食品)国际研讨会暨宠物营养论坛”于4月17日在成都成功举办.此次会议以宠物营养与健康为主题,邀请了美国国家研究委员会(NRC)动物营