基于支持向量机的特征选择及其分类算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:sheryme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是数据挖掘领域中一个重要的研究课题,特征选择可以剔除学习过程中冗余的、无关的和有噪声的特征,从而得到一个维数最少而判别能力更强的信息特征子集。可以有助于提高模式识别的识别率,机器学习算法的精度及其泛化能力。随着大规模数据的不断增长,不仅样本数很大,而且样本的特征维数也很高。在此情况下,分类算法的时间复杂度会随着不相关特征或噪声数据成指数增长,不仅会造成维数灾难(Curse of Dimensionality),也会造成降低分类算法的效果,因此有必要进行特征选择。一个特征选择的过程在原理上可以看成是一个组合优化过程,在原有的特征中选择其中的一部分,使某个特定的评价函数最优。但传统基于支持向量机的特征选择算法精度低并且时间复杂度高,本文重点研究了基于支持向量机的特征选择及其分类算法的基本概念和相关理论基础,提出了3个SVM-RFE特征选择算法的改进算法。为了避免SVM-RFE特征选择算法在特征空间搜索过程效率较低的缺陷,在基于SVM-RFE的特征选择算法中结合了模式识别领域的两种重要的特征选择方法过滤(Filter)和封装(Wrapper)的优点,得到SVM-RFE的特征选择改进算法(A-SVM-RFE),并且利用相关的数学知识和原理分析了SVM-RFE特征选择算法不能剔除线性冗余特征的情况,利用相关系数的方法剔除冗余特征进一步改进了SVM-RFE算法(AD-SVM-RFE)。受到Weston等人在特征选择算法中利用梯度下降法来优化特征搜索策略的启发,本文也在SVM-RFE特征选择算法中应用了梯度下降法的方法(GAD-SVM-RFE)来求解最优的信息特征子集。上述的3个特征选择改进算法都分别进行了实验和效果的分析,实验结果表明这3个特征选择改进算法在急性白血病数据集、UCI数据集和Weston数据集等中搜索出的信息特征子集都获得较高的分类准确率和优越的时间性能,取得了较好的实验效果。最后用改进算法(GAD-SVM-RFE)在真实的肿瘤数据集应用,实验结果和分析表明其具有一定的实用价值和应用前景。
其他文献
近年来,在计算机图形学相关领域,用距离场表示图形对象得到了广泛的应用。计算空间内任意一点到给定的几何体的符号距离也尤为重要。常用的距离场是一个标量场,它表示空间内
目标跟踪是计算机视觉领域的一个重要研究方向,跟踪的准确性直接影响到更高级的视觉处理。随着计算机与各种摄像设备的发展,目标跟踪技术的应用领域也变得越来越广泛,如动作
迁移学习旨在利用源域和目标域的潜在相关性,充分利用源域数据的知识,完成对目标域的学习任务。半监督学习是机器学习领域中的一个重要分支,研究的是如何利用已有的少量标签
无线传感器网络(WSN)被认为是影响人类生活的重要技术之一,这种技术结合了通信技术、微电子技术、传感器技术,使人们能够更加便捷地获取信息、处理信息。介质访问控制(Medium Acc
足球仿人机器人比赛中的视觉系统是机器人获取信息的主要来源,能否准确快速的识别场上的目标物体是机器人设计的基石,因此仿人机器人的视觉系统设计过程中的目标识别和目标跟
近几十年来,自动人脸识别技术取得到了很大的进步,各种各样的人脸识别算法相继被提出。另外,受到公共安全、金融安全、人机交互等领域潜在的需求的驱动,计算机人脸识别技术面
乘性噪声出现在很多图像应用领域,如医学超声图像、SAR(Synthetic Aperture Radar)图像,它与信号强度息息相关,因此乘性噪声的去除更具挑战性。然而传统乘性噪声去噪方法往往
Retinex图像增强方法是近年来研究较为热门的图像增强方法,该方法以人类视觉系统的色彩恒常性为理论基础,通过模拟人眼观察场景的方式,恢复因图像采集设备限制而丢失的场景细
编程题在线评判技术是协调庞大编程学习者群体和稀缺的教学资源矛盾的手段之一,它弱化了学生数量对教师工作量的影响,使大规模编程在线教育成为可能。当前流行的编程题在线评
杂草是影响我国农产品质量和产量的重要因素之一。目前除草主要靠喷洒除草剂,而且是大面积的均匀喷洒。.这种喷洒方法不仅提高了农业的成本,也破坏了土地的质量,污染了环境,