一种改进过采样的不平衡数据集成分类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:iiiii119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是机器学习和数据挖掘的重要环节.类分布不均衡和类中"困难样本"会导致许多传统分类算法效果不理想.为此,本文提出一种改进过采样的不平衡数据集成分类算法,一方面利用多数类样本划分少数类样本为不同子簇,充分考虑类间与类内数据的不平衡,根据子簇的概率分布进行过采样,并且对过采样后的样本及时进行修正,保证合成样本质量;另一方面利用AdaBoost算法处理不平衡数据的优势,采用决策树作为基本分类器,在每次迭代初始利用过采样方法合成样本,平衡训练信息,得到最终分类模型. 7组UCI数据实验表明改进过采样的不平衡数据集成分类算法可以显著提高分类的精度,进而提升分类器的性能.
其他文献
兴亡盛衰论在日本传统史学中占有极为重要的位置。它经历了仁政决定论、因果宿命论向天命观的转化,又历经儒家天理观的普及,变迁论和时势论的渗透,到了幕末,随着洋学和国学的发展
工业用机械秤正逐渐被电子衡器所替代,秤台也由早期的大梁式结构变为箱型结构,而箱型结构因力学分析的深入和计算机模拟技术的应用而更趋合理和省工省料.
目的了解中学生对艾滋病防治知识的认知情况,为政府有针对性地制定预防策略和措施提供基础资料。方法用整群抽样的方法,以广州市白云区某中学623名高中一年级和三年级学生为调
利用多级质谱技术对8种常见麻痹性贝毒素(GTXl,GTX4,GTX2,GTX3,dcGTX2,dcGTX3,C1和C2)在电喷雾质谱负离子模式下的分析特征进行研究。结果表明:8种目标化合物在一级质谱分析过程中均易
牙根二级水电站坝址区河谷狭窄,岸坡陡峻,地质条件复杂。水库蓄水后,坝体、坝基及两岸绕坝渗流将成为影响工程安全和正常运行的重要因素之一。综合分析地形地貌、地质构造以
非完全封闭空腔是工程领域中广泛存在的结构,其噪声控制问题一直困扰着人们。因此,开口空腔的声学特性分析是工程领域的重要研究方向,其研究结论将为复杂结构的声学设计提供有力的理论支撑。本文基于有限元和边界元方法,分别建立了封闭空腔和开口空腔的声学模型;在此基础上,分析了计及壁面声阻抗的空腔声场分布,并对不同拓扑结构和存在声障的开口空腔的声学特性开展了深入研究。论文的主要研究内容及成果如下:基于三维波动方
本文通过对发达国家环境产业发展实践与中国环境产业现状的比较 ,对我国环境产业的发展提出七方面的建议。它们是 :环境产业的概念理解 ;环境产业的全面推进 ;环境产业驱动机
汉语国际教育的快速发展要求我们对于文化词汇不断加强研究。本文通过梳理前人的研究成果,分析了汉语文化词汇的定义、类别和特点。在此基础上,对汉英两种语言的文化词汇意义
介绍了烟雾传感器、温度传感器、气体传感器以及红外成像仪的工作原理和特点,阐述了这几种传感器在火灾探测中的应用现状。
鹿茸是我国传统的名贵药材,具有显著的医疗保健作用,在中医临床上占有重要地位。《中国药典》2015年版一部收载鹿茸为鹿科动物梅花鹿(Cervus nippon Temminck)或马鹿(Cervus