基于过采样的不平衡数据集成分类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:a391137182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类问题广泛存在于不同的领域中,而不平衡数据分布固有的复杂性会显著降低分类器的分类性能,因此如何提高分类器在不平衡数据中的分类性能值得我们不断研究。传统分类算法在处理不平衡数据分类问题时,难以获得理想的分类效果。在数据处理层面上,Synthetic Minority Oversampling Technique(SMOTE)是一种优秀的重采样算法,但在某些情况下该算法合成新的样本是盲目的,并不能根据样本的分布情况合成样本,这会严重降低分类器的分类效果。因此本文对SMOTE过采样算法进行改进,提出一种基于聚类的过采样算法。在分类算法层面上,集成分类是一种可以有效提升分类器分类效果的算法。基分类器的多样性和集成策略是影响集成分类效果的关键因素,因此本文在所提过采样算法的基础上将Adaptive Boosting(AdaBoost)算法和Support Vector Machine(SVM)算法进行结合,分别对基分类器和集成策略进行改进,提出了一种非对称成本敏感的集成分类算法。1.基于聚类的过采样算法。该算法对少数类样本进行聚类得到不同规模且不同密度的少数类集群,在稀疏度大的集群中合成较多的样本,而在稀疏度小的集群中合成相对较少的样本。该算法充分考虑了不平衡数据存在的类间、类内、噪声和类重叠等问题,为不平衡数据分类问题在数据处理层面上提供了一种新的过采样策略。实验结果表明该算法的过采样机制比其他同类算法更加合理,可以有效提升分类器性能。2.非对称成本敏感的集成分类算法。该集成分类算法首先使用本文所提的过采样算法将训练集划分为多个训练子集,在AdaBoost框架下对每个训练子集使用改进的SVM进行训练并得到一系列强分类器。然后根据每个测试样本与每组训练子集中心的相似度(距离)计算出每个强分类器的权值。最后,多个强分类器通过加权投票的方式组成最终的分类系统。实验结果表明该集成分类算法比其他同类算法的稳定性更好,分类性能更优。
其他文献
设G=(V,E)是阶为n,边数为e(G)的简单图,令G的匹配数为m(G),团数为ω顶点覆盖数为τ,直径为d,Laplacian和无符号Laplacian特征值分别为μ1(G)≥μ2(G)≥…≥μn(G)=0和q1(G)≥
图像压缩作为图像处理领域相关研究内容之一,如何对包含庞大数据量的图像进行有效压缩具有重要研究意义。本文主要针对字典学习在图像压缩领域中的一些不足进行深入研究,主要工作概括如下:1.考虑到聚能量字典学习算法在去噪能力和算法复杂度方面存在局限性,研究了一种基于去噪自编码深度极限学习机和近似K奇异值分解的图像压缩算法。由于聚能量字典学习算法中存在去噪能力不足的问题,该算法利用去噪自编码深度极限学习机获取
国际贸易理论经历了古典贸易理论、新兴古典贸易理论、新贸易理论之后,进入了新新贸易理论的时代。随着跨国企业成为世界市场活动的主要承担者,传统贸易理论研究的两国产业间的贸易活动已经不再能满足实际需要,将研究层次推进到产业内,讨论企业间差异的新新贸易理论成为当下研究热点。新新贸易理论以Melitz的异质性企业模型为基础发展而来,该理论认为企业间的差异突出表现在生产率的差异上,并由此构建了以生产率为主要指
中国共产党建党精神是在中国共产党酝酿、建立和发展过程中生成的革命精神,是中国共产党革命精神的源头,也是中国共产党初心和使命的源头。近年来,关于建党精神的研究日渐增多,在较短的时间里取得了丰硕的理论成果,成为学术研究中一个新的热点和生长点。建党精神研究具有显著的后发性、现实性、地域性特征,整体呈现繁荣态势,但也面临着亟待突破的发展瓶颈。今年是中国共产党成立100周年,进一步深化对建党精神的研究,具有重要的历史意义和现实价值。
新一轮的课程改革在课改观念上改变课程过于注重知识传授的倾向,强调形成积极主动的学习态度,并强调将学生获得知识与技能的过程成为学会学习和形成正确价值观的过程。《义务
当下的中国,正在进行着“从管制型国家趋向服务型国家”的巨大转变。因此,借助电子信息化政务系统改善传统政务方式,给社会大众传播政务服务信息和宣传政务理念,构建一个以人
校园纠纷,尤其是青少年欺凌事件的频繁发生,使得校园安全问题成为当前社会重点关注的一个焦点问题。提高学生和平化解纠纷的能力与技巧,是减少欺凌事件、维护校园安全的有效
自风格迁移算法被提出以来,相关的研究层出不穷,该研究在图像渲染、上色、艺术创作以及实际应用问题中具有重要的需求。而在视频风格迁移问题中,人们发现生成的风格化视频常常出现重影、伪影以及闪烁现象,并且具有算法速度缓慢、效率低下的问题。因此,研究如何同时提高视频风格迁移算法的时域稳定性和算法速度具有重要的研究意义。传统的视频风格迁移算法基于迭代优化,通过相邻两帧之间的正反向光流来约束风格化视频的时域一致
产业组织理论是关于某一产业的组织、行为、结构等方面研究的重要理论。由于它适应了经济理论与数学模型相结合的需要,因此,应用广泛。产业集中度作为衡量产业市场结构的指标意义重大,产业集中是提高产业国际竞争力与实现产业现代化发展的必然选择。本文将产业组织理论导入旅行社市场研究中,采用绝对集中度公式对2007—2016年我国旅行社业的产业集中度进行测算,依据测算结果可知,自2007年起至2016年这十年间我
随着基础教育的改革,全国各市逐渐开始实施废除公开学生考试成绩排序这一措施,取而代之的为匿名考核制的排序体系,改革主要注重引导教师以发展的眼光、综合的角度全方位地看