具有不平衡数据的二分类问题研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zgs352262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集,当用传统的机器学习方法进行分类时,对多数类有较高的识别率,而对少数类的识别率很低。若少数类样本足够重要,往往会带来较大的损失。因此,不平衡数据集的学习问题已经成为了目前机器学习和数据挖掘领域中的一个难点和新的研究热点。 目前国内外对此问题的研究主要集中在这两个方面:数据处理方法和算法改进方法。数据处理方法主要有:过抽样方法、欠抽样方法等;算法改进方法则包括:cost-sensitive learning、one-class learning、boosting等。 支持向量机是最新的一类机器学习算法,它遵循的是统计学习理论中的结构风险最小化原则(SRM原则)。目前,支持向量机已被成功地应用于分类、函数估计和密度估计等领域。但是在处理不平衡数据问题时,它遇到了很大挑战。 为了能提高少数类的分类性能,本文提出了一种基于数据预处理的拆分训练组合分类器算法。首先,利用Tomek links对数据集进行预处理,删除所有的Tomek links样本对,从而形成新的数据集;然后,把新数据集里的多数类样本按照不平衡比拆分为不相交的若干个子集,每个子集和少数类样本一起合并为一个新的子集;最后,在每个子集上用最小二乘支持向量机进行训练,把每个分类器组合为一个分类系统,一个新的测试样本的类别将由这些分类器的分类结果投票表决。数据试验结果表明,该算法能在提高整体分类性能的同时有效的提高少数类的分类性能。
其他文献
生物网络除了一般公认性质外,还发现了具有相关性质.对于这样性质的网络,主要是对一些具体生物网络的测量结果,理论上已有模型提出,但由于实际网络的复杂性,对进一步性质很少
本文研究了三类在边界上特征蜕化的二阶椭圆型偏微分方程,其中涉及:Monge-Ampère方程的正则性,Alexandrov-Nirenberg曲面的紧性,半线性椭圆方程的L∞-模估计.  第一部分以一
基因芯片数据分析是模式识别领域的一个重要研究课题。基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵通常是变量数远远大于样本数。用一般的有监
本文分两部分,分别研究了调和映照和指数调和映照的Liouville型定理。在第一部分中,本文考虑调和映照u:(M,g)→(N,h)在无穷远渐进条件下的Liouville型定理。这里M是完备非紧黎曼
特征值理论是矩阵理论的重要组成部分,也是当前迅速发展的计算机科学中一个活跃的研究课题,在自然科学和工程技术中有着广泛的应用.但对于体上矩阵,由于其元素乘积的非交换性,使这
这篇硕士论文主要是围绕twist等价与Calabi-Yau代数展开的.最近,M.Reyes,D.Rogalski和J.J.Zhang通过群代数及Hopf作用,给出了对于代数自同构生成的twist系,twisted代数与原代数的
非线性系统的控制器设计具有广泛的应用背景,因此,一直是系统控制领域的一个研究热点.同时,它与线性系统情形不同,缺乏系统的设计方法,因而也是系统控制领域的一个研究难点.作为非
学位
资产定价问题一直都是金融研究领域中的热点和难点问题之一,特别是商品定价的研究,有时还会涉及到地域等时空因素的作用。经典的代理商品定价问题通常研究的是具有固定消费地点的情形,然而现实世界中,不确定性是普遍存在的,因此本文拟考量消费地点不固定情形下的代理商品定价问题。本文研究消费者随机型最优消费问题和代理商随机型最优定价问题。首先,研究消费者随机型最优消费问题,即研究使得消费者总支出最小的消费策略,运
学位
中国是一个滑坡地质灾害发生十分频繁和灾害损失极为严重的国家,据初步统计,我国每年因滑坡、崩塌等斜坡变形破坏造成的损失高达30~50亿美元。目前,在我国不可能有足够的经济和技术力量对有潜在危险性的滑坡灾害点进行全面治理的情况下,如果能够及时准确地预报滑坡的滑动时间,就可以尽早采取减灾防灾措施和对策,使这类灾害造成的损失减少到最低程度。 基于上述目的,本论文针对现代滑坡预报中存在着不能很好地剔除
本文的工作是在广义次不变凸的凸性下得到一些不可微规划的新结论. 在研究不可微规划最优化问题中,本文以全面观察问题,分析问题,最后解决问题作为指导思想,首先从规划理