基于过采样与集成学习的不平衡数据分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xcn1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在分类问题中,类别的不平衡性广泛存在于如医疗诊断、垃圾邮件过滤、信用卡防诈骗等领域,有效解决不平衡数据分类可以提前进行预警或预测,具有重要的研究意义和应用价值。传统的分类模型大都采用平衡数据集进行训练,追求整体的分类精度,但对于不平衡数据集,传统的分类模型效果则不尽人意。不平衡数据由数量占优的多数类与数量较少的少数类组成。不平衡数据分类解决方案有数据层面的欠采样方法与过采样方法,算法层面的代价敏感方法与集成学习方法。目前过采样方法存在合成重叠样本与过拟合的问题,而集成学习方法大都采用单层集成结构,且没有根据数据集特征选择合适的分类阈值。针对上述问题,本文首先对数据层面的过采样方法展开研究,提出一种基于层次聚类的加权过采样方法(Weighted Oversampling based on Hierarchical Clustering,WOHC)。该方法首先对少数类进行聚类,并检查聚类后少数类簇的样本组成情况,避免合成重叠或噪声样本,然后根据少数类簇的密集程度确定每个类簇的采样倍率,并根据类簇中少数类样本与多数类边界的距离确定少数类样本的采样权重,最终在各合成区域中完成过采样。该采样方法结合传统分类器在多个真实数据集上进行实验,结果表明可以有效改善传统分类器对不平衡数据的分类效果。在上述过采样方法的基础上,结合集成学习方法,设计一种基于两层集成学习的不平衡数据分类方法。首先利用Adaboost算法作为最外层的集成学习框架,并以随机森林作为Adaboost算法的基分类器,对不平衡数据的训练集进行WOHC采样,利用采样后的数据集对基分类器进行训练。在Adaboost算法每一轮的训练流程中删除被错分的合成样本,并利用WOHC生成对应数量的合成样本,在结果输出阶段,通过OTSU算法自适应地选择Adaboost算法的最佳的分类阈值,最终在多个真实数据集上进行实验,实验结果表明较其他不平衡集成分类算法有一定提升。
其他文献
科学技术的不断进步以及后期的迅速发展使得弱电工程的相关智能化系统逐渐深入的影响到人们的生活,同时在人们的日常生活中扮演着越来越重要的角色。当然,在后期的弱电控制系
核电是一种经济、高效的清洁能源,发展核电已是各国能源战略重要组成部分。2011年,日本福岛核事故造成重大人身伤亡、财产损失及社会影响,凸显出地震对核电厂安全运行的巨大
在食品加工过程中,美拉德反应虽然对提升食品的风味和品质具有重要作用,但也会衍生一些化学危害物。本文综述了美拉德反应对食品风味和色泽等品质的影响,以及美拉德反应产物
随着我国国民经济的高速发展,能源在我国国民经济中地位越来越重要。石油是具有多种优良特性的优质能源,石油在现代化工业、交通、军事等方面都越来越体现出它的重要性。油库
3,4-二羟基丁酸(3,4-dihydroxybutyric acid,3,4-DHBA)是一种通用的手性C4平台化合物,它可以作为前体物质合成许多具有商业价值的重要化合物或是合成各种抗体、β-和α-氨基酸和多肽等。目前国内外关于该物质的研究非常少,其化学合成法主要来源于对其内酯物质3-羟基-γ-丁内酯(3-hydroxy-γ-butyrolactone,3HBL)的简单皂化,但3HBL的化学合成
目的分析广东省人感染H7N9禽流感时空聚集性特点。方法采用空间自相关分析和时空扫描统计量对广东省21个地市2013年4月1日到2015年3月31日人感染H7N9禽流感发病情况进行时空
霉菌是丝状真菌的俗称,曲霉菌属、青霉菌属、镰刀菌属等部分霉菌在生长的过程中,会以初级代谢产物为基础合成新的代谢产物——霉菌毒素。霉菌毒素对养猪业影响非常大,不仅对
在中美发生贸易战、国内推出“中国制造2025”计划的背景下,创新能力越来越成为企业竞争力水平的关键因素。创新能力离不开企业的创新投入,创新投入不仅需要管理者进行决策,更需要利益关联方的配合支持。有不少学者从有限理性角度证明过度自信的管理者具有更高的风险承担水平,会促进企业创新投入。同时也有学者发现过度自信管理者在低现金流水平下会投资不足,因而过度自信管理者对企业创新投入的影响依然值得商榷。另一方面
针对聚合物驱注入管线对聚合物溶液剪切降解大的问题,取样化验分析注入管线起始端样品中细菌及还原性物质对聚合物黏度的影响,分析注入管线黏度损失的主要原因为长期注入过程
当前,经济全球化趋势极速发展,就业竞争日趋激烈,大学生择业观呈现出多元化趋势。基于稳定匹配理论视角,对当前大学生择业观深入调查与分析,探讨择业观问题表征,提出引导大学