基于聚类欠采样的集成不均衡数据分类算法

来源 :工程科学学报 | 被引量 : 0次 | 上传用户:lk123ad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.
其他文献
目前,传统的公路检测包括人工检测和多功能智能道路检测车检测,而人工检测费时费力且精准度不高,多功能智能道路检测车成本又过太高,检测方式单一。随着互联网的不断发展,各
捕食-食饵模型是刻画现实世界物质运动变化的一种非常重要的生物模型,由于其实际应用价值很高,已被众多的国内外专家学者广泛研究.近年来,随着对捕食-食饵模型研究的不断深入
分级组合深部调剖技术是按照储层渗透率差异将调剖(驱)剂进行分级,将连续相强胶堵剂作为一级调剖剂,主要用来封堵近井地带大孔道;将分散相颗粒堵剂作为二级调剖剂,用来改变远井
目的:构建强力霉素可调控凋亡素基因表达的重组逆转录病毒载体,观察强力霉素调控下凋亡素基因的表达情况及其对人结肠癌细胞的致凋亡作用。 方法:将凋亡素基因克隆入逆转
宫颈癌是最常见的女性肿瘤之一,其发生与人乳头瘤病毒(human papilloma virus, HPV),尤其是HPV16,18 感染密切相关。目前基于HPV16 的治疗性疫苗针对的靶蛋白主要为早期蛋白E
信息技术推进的城市建设进程中,智慧城市、智慧商圈已然成为热点。分析探讨智慧商圈的建设内涵,解析其在城市功能分区中的格局及其与城市其他功能区之间的的关系则成为当前地
维多利亚州癌症协会(Cancer Council Victoria)公布一项研究发现,酒类产品广告可影响饮酒习惯,这能够最有效地刺激饮酒者远离酒精。在本次研究中,研究人员让定期饮酒者观看了
目的:应用反义核酸技术封闭缺氧诱导因子(HIF)-1α基因,研究HIF-1α反义硫代寡核苷酸对人胶质瘤细胞系U251 的增殖和凋亡的影响,探讨以HIF-1α为靶点进行胶质瘤基因治疗的可
科学研究需要创新,现代仪器分析手段和方法是科学研究创新的要素,要培养高素质、创新型科研人才,"现代仪器分析"是不可缺少的一门课程。以中医药院校药学研究生为例,对"现代仪器
由于生物质炭的碳化学结构主要以芳香碳为主,具有高度的生物化学和热稳定性,可长期保存于土壤中而不被土壤微生物所分解,因此其在增加土壤碳库容量、稳定土壤有机碳库以及维