论文部分内容阅读
特征选择是数据挖掘领域中一个重要的研究课题,特征选择可以剔除学习过程中冗余的、无关的和有噪声的特征,从而得到一个维数最少而判别能力更强的信息特征子集。可以有助于提高模式识别的识别率,机器学习算法的精度及其泛化能力。随着大规模数据的不断增长,不仅样本数很大,而且样本的特征维数也很高。在此情况下,分类算法的时间复杂度会随着不相关特征或噪声数据成指数增长,不仅会造成维数灾难(Curse of Dimensionality),也会造成降低分类算法的效果,因此有必要进行特征选择。一个特征选择的过程在原理上可以看成是一个组合优化过程,在原有的特征中选择其中的一部分,使某个特定的评价函数最优。但传统基于支持向量机的特征选择算法精度低并且时间复杂度高,本文重点研究了基于支持向量机的特征选择及其分类算法的基本概念和相关理论基础,提出了3个SVM-RFE特征选择算法的改进算法。为了避免SVM-RFE特征选择算法在特征空间搜索过程效率较低的缺陷,在基于SVM-RFE的特征选择算法中结合了模式识别领域的两种重要的特征选择方法过滤(Filter)和封装(Wrapper)的优点,得到SVM-RFE的特征选择改进算法(A-SVM-RFE),并且利用相关的数学知识和原理分析了SVM-RFE特征选择算法不能剔除线性冗余特征的情况,利用相关系数的方法剔除冗余特征进一步改进了SVM-RFE算法(AD-SVM-RFE)。受到Weston等人在特征选择算法中利用梯度下降法来优化特征搜索策略的启发,本文也在SVM-RFE特征选择算法中应用了梯度下降法的方法(GAD-SVM-RFE)来求解最优的信息特征子集。上述的3个特征选择改进算法都分别进行了实验和效果的分析,实验结果表明这3个特征选择改进算法在急性白血病数据集、UCI数据集和Weston数据集等中搜索出的信息特征子集都获得较高的分类准确率和优越的时间性能,取得了较好的实验效果。最后用改进算法(GAD-SVM-RFE)在真实的肿瘤数据集应用,实验结果和分析表明其具有一定的实用价值和应用前景。