不平衡数据集上支持向量机算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:skt023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是由Vapnik等人提出的一种新的学习机器,它建立在统计学习理论基础之上,是处理小样本学习的有效工具,在文本自动分类、信号处理、手写数字识别、通讯等领域得到了广泛应用;并克服了传统机器学习中的过学习、维数灾难、局部极值等问题。通常的支持向量机在处理不平衡数据集时,不同类别样本数量上的差异导致分类器性能的下降,而实际应用中,少数类的样本往往提供更重要的信息,因此如何有效地提高不平衡数据集上机器学习的分类性能成为机器学习领域急需解决的课题。本文首先介绍了支持向量机的基本理论以及处理不平衡数据集的支持向量机研究现状。对于两分类问题,正负类训练样本数量的不平衡对分类性能的影响很大,Veropulos等人对传统的SVM进行了改进,提出对不同的类别引入不同的惩罚因子。本文则基于正负类的样本数量,结合支持向量,提出了一种调整分类超平面的方法。该方法有效地提高了正类的预测正确率。寻找支持向量机的最优参数也是支持向量机研究领域的一个重要分支。本文从两个惩罚参数的不平衡数据分类模型出发,在其对偶问题中,把两个惩罚参数也看作核函数的参数,结合最优化方法,分别对L1-SVM和L2-SVM提出了在不平衡数据集上进行参数选择的新方法。
其他文献
在电信行业中,每天都产生大量的数据,在这些数据中,可能有潜在的信息存在。运用数据挖掘技术对这些数据进行分析,建立数据模型,以提取出有用的、潜在的信息。决策树模型和神
基于微分包含与非光滑分析,本文系统地研究了带有不连续激励函数延时神经网络、次梯度系统神经网络、非光滑类梯度系统和Hilbert空间中带有Clarke次微分发展包含这四大类微分
20世纪60年代以来,凸优化理论在经济学、变分学、力学、以及其它科学领域都有着广泛的应用.在本论文中,我们将主要研究凸优化问题解集的稳定性分析及其应用.本文内容具体安排
矩阵的加权QR分解、双曲QR分解和辛QR分解是经典QR分解的推广,在数值计算等方面都有十分重要的应用,是矩阵计算的重要工具。本文主要研究了这些矩阵分解的扰动分析。  首先,对
Heegaard分解理论是三维流形组合拓扑研究领域中一种非常重要的研究方法,它是通过将流形沿Heegaard曲面切成两个压缩体的方式来研究流形的.几十年来, Heegaard分解理论得到了
本文主要研究了Bloch表示下的量子态在局域酉变换下的不变量.结合量子态的系数矩阵和局域酉等价的性质,先构造一个关于系数矩阵的有限维集合,再根据这个集合构造出不变量的集合
广义系统是一类比正常系统更具一般形式的动力系统,广义系统理论是20世纪70年代才开始形成并逐渐发展起来的现代控制理论的一个独立分支.人们对广义系统的研究倾注了极大的热