基于SVM的二分类不平衡数据问题研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:laj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集,当用传统的机器学习方法进行分类时,对多数类有较高的识别率,而对少数类的识别率很低。若少数类样本足够重要,往往会带来较大的损失。因此,不平衡数据集的学习问题已经成为了目前机器学习和数据挖掘领域中的一个难点和新的研究热点。   目前国内外对此问题的研究主要集中在这两个方面:数据处理方法和算法改进方法。数据处理方法主要有:过抽样方法、欠抽样方法等;算法改进方法则包括:cost-sensitive learning、one-class learning、boosting等。   支持向量机是最新的一类机器学习算法,它遵循的是统计学习理论中的结构风险最小化原则(SRM原则)。目前,支持向量机已被成功地应用于分类、函数估计和密度估计等领域。但是在处理不平衡数据问题时,它遇到了很大挑战。   为了能提高少数类的分类性能,本文提出一种针对不平衡数据分类的方法,即基于马氏距离的双边加权支持向量机方法,该方法是在马氏距离下。先对数据集进行过抽样,增加少数类数量,使多数类和少数类近似趋于平衡。分类算法中引入样本模糊隶属度,这样考虑了不同类的重要性和不同样本隶属度的差别,既调整多数类和少数类的权重,又给每个样本赋予不同的隶属度,从而既提高了不平衡数据对少数类分类和预测的性能,进而也提高了整体的分类性能。   数据试验结果表明,该算法能在提高整体分类性能的同时提高少数类的分类性能。
其他文献
图的交叉数是图论的一个重要概念,它来源于20世纪五十年代Turan提出的“砖厂问题”(Turans brick factory problem).作为一个和图的非平面性、色数、亏格以及其它性质息息相关
本文从一个统一的观点来研究一类色散波方程的Cauchy问题,包括KdV方程、导数Schrodinger方程、BO方程以及色散关系广义的BO方程.对于非线性次数较低的色散波方程,为研究其Cauch
无线传感器网络是当前国际上备受关注的新型通信网络,具有十分广阔的应用前景。无线传感器网络相关基本理论和应用问题是一个多学科交叉的新兴热点研究领域。随着无线传感器网
学位
梯度投影算法是一种解决大规模带约束优化问题的简单而有效的优化方法。近年来随着梯度型方法的不断改进,以及求解点到集合距离的投影算法的发展,梯度投影算法受到越来越多的重
一、教学目标rn1.认知目标:通过创设活跃、欢乐的课堂气氛,使学生在自主、合作的学习活动中掌握原地投掷的方法.rn 2.技能目标:通过教师的引导式教学,使学生在游戏和自我练习
期刊
新课标要求在英语教学中要以口语交际为主,培养学生的语言运用能力,使学生能开口说英语,达到学以致用的目的。学生能够大胆地说英语是课改成功的关键,因此打开学生“自由说,
学位
学生的学习习惯是在长期的学习过程中逐步形成的一种本能.不同的学习习惯对于思维能力与数学能力的提高起着不同的作用.良好的学习习惯不仅可以提高学习效率,而且有利于自学
期刊
学位
随着计算机和互联网技术的飞速发展,信息安全技术的重要性越来越突出。作为信息安全一个重要分支的信息隐藏技术,也得到了快速的发展和更多的应用。本文研究的就是基于数字视频