论文部分内容阅读
特征选择是机器学习领域中一个重要的研究课题.特征选择可以剔除数据集中冗余和噪声特征,得到一个精简且判别能力更强的特征子集,从而避免学习过程中的“过拟合”问题,提高模型的泛化能力和可解释性,减少数据的采集量和存储量,节省训练和预测时间.岛正则化方法在特征选择中具有重要地位,已成为当前研究的热点课题.在标准的支持向量机中所使用的L2范数不具备特征选择的能力.为了能在学习分类模型的同时实现特征选择,常采用L0范数或L1范数正则化方法.但Lo-SVM是一个难以求解的组合优化问题,而Li-SVM存在欠稀疏的缺点,因此介于两者之间的LP-SVM(0<p<1)引起了国内外学者的关注.本文研究支持向量机特征选择中的Lp正则化方法.主要研究成果如下:1.针对LP-SVM(0<p<1)的目标函数非光滑非凸且非Lipschitz连续的问题,本文提出LP-SVM(<p<1)的一个等价模型LOSC-SVM.该等价模型具有线性目标函数和光滑约束条件,从而可利用光滑约束最优化的成熟算法有效求解Lp-SVM(0<p<1).我们证明了LOSC-SVM与LP-SVM之间的等价性以及LOSC-SVM的若干良好性质.该等价模型的建立为求解LP-SVM问题开辟了新途径.人工数值实验验证了模型的有效性,并表明不同结构的数据集适用不同的正则化阶次p.真实数据实验结果表明,采用自适应正则化阶次p的LOSC-SVM在特征选择和分类上的性能均优于L1-SVM.与已有的求解LP-SVM问题的SLA-SVM算法相比,LOSC-SVM的结果更稳定.2.大量计算研究表明:L1/2正则化可作为Lp(0<p<1)正则化问题的代表.在此研究成果之上,本文侧重于研究求解L1/2-SVM的数值算法.基于L1/2-SVM的等价约束模型,我们提出一种求解L1/2-SVM问题的内点法,并证明算法的收敛性.人工数据实验结果表明,与L0-SVM和L1-SVM相比,L1/2-SVM能够更准确的找到相关且非冗余的特征.真实数据实验表明,L1/2-SVM可获得比L0-SVM更精确的分类结果,以及比L1-SVM更稀疏的特征选择结果.3.本文研究求解L1/2-SVM的惩罚序列线性规划算法(PSLP)该算法利用线性规划逼近最优解,适用于变量和约束都很多的大规模问题.我们将PSLP算法应用于具有高维小样本、高噪声、高冗余等特点的基因表达谱数据集.数值实验结果表明,PSLP算法的准确性高于求解Lo-SVM的FSV算法.与L1-SVM相比,PSLP算法不仅能找到比L1-SVM更少的特征基因,而且可获得比L1-SVM更好或相当的分类结果.我们统计得出各数据集中频繁被选择的前十位基因,为生物学的进一步研究提供参考.4.本文对Lp正则化支持向量机在特征选择方面的能力进行理论分析.我们首先分析对特定数据进行特征选择的可能性,研究表明支持向量机实现特征选择不仅与目标函数采用的范数有关,还与数据本身有关.然后推导出一个用于度量支持向量机特征选择能力的概率计算公式,并应用该公式计算LP-SVM在p不同取值时的特征选择概率.计算结果表明,较小的正则化阶数p有助于提升LP-SVM的特征选择能力.