支持向量机在分类和回归中的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hgjiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学习理论是一种专门研究小样本情况下机器学习规律的新兴理论,它试图从更本质上来研究机器学习问题。SVM(Support Vector Machine,支持向量机)方法是在统计学习理论基础上发展起来的一种通用学习机器,它展现出优秀的学习性能,主要应用于分类和回归问题中。作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点,并且可以有效地克服维数灾难和过拟合等问题。又因为采用了核函数思想,使它把非线性空间的问题转换到线性空间,降低了算法的复杂度。正是由于具有较严格的理论基础,又能较好地解决许多实际问题,支持向量机已成为继神经网络研究之后目前机器学习领域最有影响的成果之一,倍受学者们的关注。 但是,尽管具有以上优点,支持向量机在实践应用中仍不同程度地存在一些缺陷,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。本文针对上面的问题,以支持向量机理论为基础,对分类与回归的基本方法进行了系统的研究,集中进行了下面一些研究工作。 (1)目前使用的已有SVM核函数,在分类中不能逼近某一L<,2>(R)(平方可积空间)子空间上的任意分类界面,同样在回归中也不能逼近任意的目标函数。针对上述问题,在支持向量机核函数方法和小波框架理论的基础上,提出了LS-WSvM(Least SauarleWavelet Suppoit Vector Machine,最小二乘小波支持向量机)结构模型。该模型在LS—SvM(Least Square Support Vector Machine,最小二乘支持向量机)中使用一种新的由墨西哥小波构成的SVM核函数。传统核函数是相关的或冗余的,而小波核函数满足支持向量核函数的条件,是近似正交的。由于采用了小波核函数,模型的精度和迭代的收敛速度得到了提高。实验结果表明,同标准的SVM和LS-SVM比较起来,在同等条件下,LS-WSVM在分类方面具有优良的特征提取性能;同时在函数回归方面LS-WSVM也具有优良的逼近性能,拟合效果更为细腻。 (2)针对传统的半监督SVM训练方法把大量时间花费在非支持向量优化上的问题,提出了在半监督支持向量机中采用遗传FCM(Genetic Fuzzy C Mean,遗传模糊C均值)进行工作集样本预选取的方法。半监督SVM优化学习过程中,在原来训练集(标签数据)上加入了工作集(无标签数据),从而构成了新的训练集。该方法首先利用遗传FCM算法将未知数据划分成某个数量的子集,然后用凹半监督SVM对新数据进行训练得到决策边界与支持向量,最后对无签数据进行分类。这样通过减小工作样本集,选择那些可能成为支持向量的边界向量来加入训练集,减少参与训练的样本总数,从而减小了内存开销。并且以随机三维数据为例进行分析,实验结果表明,工作集减小至原工作集的一定范围内,按比例减少工作集后的分类准确率、支持向量数与用原工作集相比差别不大,而分类时间却大为减少,获得了较为理想的样本预选取效果。 (3)针对现有传统的一些图像去噪方法难以获得清晰图像边缘的问题,提出了一种利用ε-svR(ε-Support Vector Regression,ε-支持向量回归机)技术构建图像去噪滤波器的新方法。ε-SVR通过引入ε不敏感损失函数,可以实现具有较强鲁棒性的回归,而且回归估计是稀疏的,保留了SVM的所有优点。本文分析了ε-SVR理论算法及其在图像去噪中的应用,使用ε-SVR对图像进行滤波并且与最小值滤波、均值滤波和维纳滤波等常用的滤波方法相比较,还比较了SVM各种核函数对不同噪声的滤波效果和分析了不同阶数的Multinomial核的滤波效果。实验结果表明了ε-SVR能够有效地去除噪声,滤波后图像不但信噪比较高而且边缘比较清晰,同时实验结果还表明了ε-SVR具有良好的稀疏性。 (4)针对目前机械故障诊断中难以进行特征提取和常规SVM算法诊断多类分类问题时存在困难等问题,提出了一种结合了WPA(Wavelet Packet Analysis,小波包分析)理论和基于二叉树的多级SvM分类器的WPA-SVM机械故障诊断方法。将小波包分析后的信号频带能量作为特征向量,输入到基于二叉树的多级SVM分类器中进行训练,找到样本中的支持向量,并以此决定最优分类超平面。然后根据最优分类超平面,对测试集的样本进行故障诊断。该方法具有重复训练样本少,简单、直观的优点,具有很高的分类性能。利用获得的机械故障数据建立了多级故障分类器,通过对两种不同特征提取方法、三种不同SVM识别策略、SVM方法与神经网络方法等的实验比较结果可知,基于小波包和支持向量机的故障诊断方法是机械故障诊断的一个有前途的发展方向。 (5)针对SVM在处理大量数据时训练时间长,实时处理能力差和在解决多分类问题时存在不可分域等现象,提出了一种基于粗糙集理论和模糊支持向量机理论的RS-FSVM(Rough Set and Fuzzy Support Vector Machine,粗FSVM)分类方法。该方法采用粗糙集属性约简方法把冗余的属性和冲突的对象从决策表中删去,从而对决策信息系统的进行了相对简化,使模型具有一定的抗信息丢失能力;同时FSVM(Fuzzy Support Vector Machine,模糊支持向量机)通过引入模糊成员函数的思想对支持向量机进行了改进,能够解决常规支持向量机多值分类器中存在的不可分域问题。这样RS-FSVM可以大大降低数据维数,降低支持向量机分类过程中的复杂度,提高了预测分类精度。采用粗FSVM方法对融合图像质量进行了评价实验,实验结果表明了它的优越性。 (6)使用SVM在研究实际问题时,如果众多变量存在高度的多重共性,那么会对SVM的分类结果造成影响,并且该问题仅仅依靠SVM本身的知识很难得到彻底的解决。针对SVM分类算法中的多重共线性问题,结合因子分析和v-支持向量机的分类机理,提出了一种组合建模算法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量机分类过程中的复杂度和运算量,同时不会改变样本的分布特性,保持样本的分类信息。选取网站的链接数据作为样本,实验采用ROC曲线(Receiver OperationCurve,接受者操作特性曲线)评价方法,实验结果表明对原始变量先做因子分析,然后用SVM分类,能够有效地解决SVM分类算法中的多重共线性问题,获得较高的准确率。
其他文献
目前,数据挖掘的理论和技术蓬勃发展,以缓解由数据库技术的普及带来的"数据过剩而知识匮乏"的问题.数据挖掘不仅已成为生物信息、计算化学、地理信息等科学领域的重要研究手
随着互联网的普及和发展,各种新兴的Internet业务不断涌现,占用越来越多的网络资源,致使网络流量激增,网络常常表现出容量不足.因此,网络管理和维护人员有必要及时了解网络容
随着计算机的应用日益增多,各行业对软件系统的健壮性和稳定性提出了更高的要求,使得软件测试在整个软件项目中的地位日益重要。基于FSM模型的系统测试是一致性测试的重要研
本文的主要背景是中国科学院“十五”信息化建设重大项目—科学数据库及其应用系统。科学数据库经过二十多年的发展,积累了大量的科学数据资源,如何对这些分布、异构的数据资源
学位
深层卷积神经网络是人工神经网络在图像识别领域的一个研究热点,其目的是通过多层的网络结构进行复杂特征的提取并给出图像所属类别等属性。cuda-convnet深层卷积神经网络算法
随着网络技术地日益成熟,网络提供给用户的服务和应用越来越多。对服务供应商来说,如何深层次地分析用户的通信行为,进而提供更好的服务质量和计费活动显得尤为重要。   本课
学位
系统生物学思想是一种生命科学研究新的工作模式,它从多数据源整合出发,以网络分析为基础,通过统计学、信息学、人工智能等各种手段,对各种生命现象做出预测并指导传统生物实
在中国科学院多媒体通信协作平台的推广应用过程中,考虑到当前中国科技网网络结构相对复杂的情况和多媒体网络通信的实际需求,迫切需要一款能够支持标准会话协议,又兼顾配置的简
学位
包分类技术作为互联网中支持多业务服务能力的关键技术一直是研究人员关注的研究课题.网络处理器由于结合了通用处理器的低成本、灵活性以及专用集成电路(ASIC)的高效率的特
随着集成电路规模的不断扩大、集成度的不断提高,高速度高性能芯片的功耗成为日益突出的问题.保持系统性能的同时降低功耗已经成为集成电路设计面临的新挑战,特别是随着移动