基于KM-SMOTE和随机森林的不平衡数据分类

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:ananjuben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于SMOTE算法的随机森林能够很好地处理不平衡数据集的分类,是一种通过对数据进行改造以达到良好分类要求的分类器。但SMOTE算法在处理不平衡数据后,可能会导致不平衡数据集分布的整体变化以及模糊正负类边界。这两个缺陷极易导致平衡后的数据与原始数据集有很大差异,从而使分类结果有提高但仍旧不够理想。K-means算法能够有效地聚类,并达到对数据分布的描述。在此基础上,结合K-means算法与SMOTE算法,利用两者优点,文中提出了一种基于K-means的KM-SMOTE算法,有效地解决了上述两个问题。并用于随
其他文献
本文以《原始凭证的审核》课堂教学为例,通过介绍课堂教学的设计思路、教学过程、引入信息化手段进行教学后的思考,就如何运用信息化手段提高会计课堂的吸引力,如何改进会计
近年来,旅游参观点与消费者之间因儿童优惠票价的标准问题产生的争议事件频发,部分纠纷已诉至法院进行解决。纠纷产生的背后,反映了现行优惠标准存在的问题:衡量标准参差不齐
重症医学科在成功救治许多危重患者生命的同时,也因收治患者病情危重、免疫功能低下及侵入性操作等原因,使医院感染的发生率明显增高,每年超过30%的院内感染是发生在重症监护
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
按审计例惯,大多审计组在审计项目实施完毕后,要与被审计单位有关领导进行一次交换意见,把审计的情况及审计的处理意见向被审计单位交一下底,并听取审计单位意见,即人们通常说的“
微媒体迭代形成场域生态具有媒体生态快速演变,内容供给多元丰富,传播方式交互即时等特征,对大学生的生活方式、思维方式、行为特征带来深刻的影响。本文探求微媒体场域生态下大
北京市今后每年都将拨2到3亿元专款作为国有企业破产准备金 ,以援助那些连年亏损、扭亏无望、资不抵债的国企尽快实现破产。北京市财政局和市经委近日联合制定的《北京市破产准
国家统计局于7月15日发布数据,上半年国内生产总值(GDP)340637亿元,按可比价格计算,上半年全国GDP增速为6.7%。国家统计局新闻发言人盛来运以“稳中有进、稳中有好”概括其运行特点。作为国家经济重要组成部分的房地产虽然做出了重要贡献,但楼市的“涨、低、难、紧”是不容忽视的。  “涨”是指一二线城市房价、地价涨。国家统计局发布,6月份,70个大中城市新建商品住房和二手住房价格环比上涨的城市
为筛选出适合于洞庭湖区气候条件下优质紫花苜蓿品种,通过对湖南省常德市汉寿县洞庭湖区14个紫花苜蓿(Medicago sativa)品种有关性状进行综合评价,筛选出适宜的高产优质品种
美军积极推行"合同商保障",以降低武器系统使用与保障费用的同时获得更高的战备水平,并取得了成功的经验,在实战中经受了检验。文章详细分析了美军的装备维修保障机制,并明确