具有不平衡数据的二分类问题研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：zgs352262

【摘要】

：

在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集，当用传统的机器学习方法进行分类时，对多数类有较高的识别率，而对少数类的识别率很低。若少数类样本足够重要，往往

【作者】

：

陈奇刚

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2007年期

【关键词】

：

不平衡数据不平衡数据最小二乘最小二乘支持向量机支持向量机组合分类器组合分类器机器学习机器学习数据挖掘数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集，当用传统的机器学习方法进行分类时，对多数类有较高的识别率，而对少数类的识别率很低。若少数类样本足够重要，往往会带来较大的损失。因此，不平衡数据集的学习问题已经成为了目前机器学习和数据挖掘领域中的一个难点和新的研究热点。目前国内外对此问题的研究主要集中在这两个方面：数据处理方法和算法改进方法。数据处理方法主要有：过抽样方法、欠抽样方法等；算法改进方法则包括：cost-sensitive learning、one-class learning、boosting等。支持向量机是最新的一类机器学习算法，它遵循的是统计学习理论中的结构风险最小化原则(SRM原则)。目前，支持向量机已被成功地应用于分类、函数估计和密度估计等领域。但是在处理不平衡数据问题时，它遇到了很大挑战。为了能提高少数类的分类性能，本文提出了一种基于数据预处理的拆分训练组合分类器算法。首先，利用Tomek links对数据集进行预处理，删除所有的Tomek links样本对，从而形成新的数据集；然后，把新数据集里的多数类样本按照不平衡比拆分为不相交的若干个子集，每个子集和少数类样本一起合并为一个新的子集；最后，在每个子集上用最小二乘支持向量机进行训练，把每个分类器组合为一个分类系统，一个新的测试样本的类别将由这些分类器的分类结果投票表决。数据试验结果表明，该算法能在提高整体分类性能的同时有效的提高少数类的分类性能。

其他文献

一类理想网络的相关性研究

生物网络除了一般公认性质外,还发现了具有相关性质.对于这样性质的网络,主要是对一些具体生物网络的测量结果,理论上已有模型提出,但由于实际网络的复杂性,对进一步性质很少

学位

生物网络同配性质异配性质多中心网络异配性

特征蜕化的非线性椭圆方程的正则性估计及其在几何中的应用

本文研究了三类在边界上特征蜕化的二阶椭圆型偏微分方程，其中涉及:Monge-Ampère方程的正则性，Alexandrov-Nirenberg曲面的紧性，半线性椭圆方程的L∞-模估计.　　第一部分以一

学位

非线性椭圆方程正则性估计积分算子特征蜕化

降维方法与有监督分类在基因芯片数据分析中的应用比较

基因芯片数据分析是模式识别领域的一个重要研究课题。基因表达数据通常是测定几十个样本中成千上万个基因的表达值，得到的数据矩阵通常是变量数远远大于样本数。用一般的有监

学位

基因芯片数据分析主分量分析偏最小二乘K-近邻法降维方法有监督分类

关于调和映照和指数调和映照的Liouville型定理

本文分两部分，分别研究了调和映照和指数调和映照的Liouville型定理。在第一部分中，本文考虑调和映照u:(M，g)→(N，h)在无穷远渐进条件下的Liouville型定理。这里M是完备非紧黎曼

学位

指数映照Liouville定理速率控制光滑函数欧氏度量

四元数矩阵的特征值问题及其应用

特征值理论是矩阵理论的重要组成部分，也是当前迅速发展的计算机科学中一个活跃的研究课题，在自然科学和工程技术中有着广泛的应用．但对于体上矩阵，由于其元素乘积的非交换性，使这

学位

四元数矩阵特征值人脸识别主成分分析线性判别分析

TWIST等价与CALABI-YAU代数

这篇硕士论文主要是围绕twist等价与Calabi-Yau代数展开的.最近，M.Reyes，D.Rogalski和J.J.Zhang通过群代数及Hopf作用，给出了对于代数自同构生成的twist系，twisted代数与原代数的

学位

分次代数Artin-Schelter正则代数Calabi-Yau代数p-Koszul代数Nakayama自同构twist等价同调行列式

随机非线性系统的控制器设计和闭环性能分析

非线性系统的控制器设计具有广泛的应用背景，因此，一直是系统控制领域的一个研究热点.同时，它与线性系统情形不同，缺乏系统的设计方法，因而也是系统控制领域的一个研究难点.作为非

学位

随机非线

含随机因素的最优空间定价策略

资产定价问题一直都是金融研究领域中的热点和难点问题之一,特别是商品定价的研究,有时还会涉及到地域等时空因素的作用。经典的代理商品定价问题通常研究的是具有固定消费地点的情形,然而现实世界中,不确定性是普遍存在的,因此本文拟考量消费地点不固定情形下的代理商品定价问题。本文研究消费者随机型最优消费问题和代理商随机型最优定价问题。首先,研究消费者随机型最优消费问题,即研究使得消费者总支出最小的消费策略,运

学位

信息融合技术在滑坡预报中的应用研究

中国是一个滑坡地质灾害发生十分频繁和灾害损失极为严重的国家,据初步统计,我国每年因滑坡、崩塌等斜坡变形破坏造成的损失高达30～50亿美元。目前,在我国不可能有足够的经济和技术力量对有潜在危险性的滑坡灾害点进行全面治理的情况下,如果能够及时准确地预报滑坡的滑动时间,就可以尽早采取减灾防灾措施和对策,使这类灾害造成的损失减少到最低程度。基于上述目的,本论文针对现代滑坡预报中存在着不能很好地剔除

学位

信息融合滑坡预报状态估计机动目标跟踪卡尔曼滤波多传感器

一类非Lipschitz不可微规划在广义次不变凸下的最优准则及对偶定理的建立

本文的工作是在广义次不变凸的凸性下得到一些不可微规划的新结论. 在研究不可微规划最优化问题中,本文以全面观察问题,分析问题,最后解决问题作为指导思想,首先从规划理

学位

非Lipschitz不可微规划广义次不变凸最优准则对偶定理

具有不平衡数据的二分类问题研究

与本文相关的学术论文