一种基于特征选择的不平衡数据分类算法

来源 :集成技术 | 被引量 : 0次 | 上传用户:jia343212539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习。针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的。然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度。实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能。 The unbalanced data classification is a hot research topic in machine learning at present. The traditional classification algorithm is usually based on the premise of the equilibrium state of data sets and can not be directly applied to the classification of unbalanced data. In order to solve the problem of unbalanced data classification, this paper proposes an improved unbalanced classification enhancement algorithm based on feature selection, which weighs the importance of minority samples from different types of data sets, Meaning of the attributes, but also played a reduction of data dimension purposes. Then the unbalanced classification algorithm is used to balance the data. Finally, a new improved scheme is proposed to solve the problem of excessive increase of the weight of the misclassified samples, which can effectively restrain the growth rate of weights. Experimental results show that the proposed algorithm can effectively improve the classification performance of unbalanced data, especially the classification performance of a few classes.
其他文献
冷轧单机架液压AGC系统主要由一套SIMADYN D控制装置、检测仪表(包括位移、压力、厚度、速度的检测)、伺服系统、压下缸等设备组成,其实质是通过改变压下位置、轧制压力、张
文章通过分析现阶段煤矿企业中存在的一些问题,针对煤矿企业的特点,提出了提高煤矿企业管理水平的具体措施。 By analyzing some problems existing in the coal mine enter
基层工会直接联系和服务职工群众,是工会全部工作和凝聚力、创造力的基础,是落实工会各项工作的组织者、推动者和实践者。新时期,基层工会在创建学习型工会过程中,考虑自身特
本文从项目管理对建设单位实施每个建设项目的重要性出发,对建设单位搞好项目管理,提出以下几个方面的认识:建设单位自身内部的管理,招、投标管理,狠抓设计管理,监理制度,共
本文结合工程实例,时在桥梁施工中预应力钢绞线张拉质量控制进行了探讨,以供类似工程参考.
文章结合某市的工程施工,介绍悬挑式钢管脚手架在高层施工中的应用,采用悬挑脚手架不影响基础土方回填,当场地狭小或受限时,可以提高工效.
目的探讨脊柱结核并发截瘫病人术后施行心理护理对疾病康复的影响.方法以谈话法和观察法针对不同心理反应的病人给予心理分析及护理.结果78例手术病人均有生理和心理方面的改
近几年,磷酸铁锂动力电池逐渐成为电动汽车动力电池首选。但是由于材料本身特性,使得磷酸铁锂电池的荷电状态难以精确估算。当电动汽车处于复杂工作环境时,荷电状态估计在保
目的探讨白内障术后视力曲线波动的特点和原因。方法白内障非超声乳化小切口ECCE手术239例(253眼),术后第1天与第3天、15天、3月后随访视力波动情况,并绘制成曲线。结果稳定
CUDA(Compute Unified Device Architecture)是一种重要的并行处理架构,但其具有相对复杂的线程管理机制和多重存储模块,从而使得基于CUDA的算法时间复杂度很难量化。针对这