支持向量机特征选择中的L_p正则化方法研究

被引量 : 11次 | 上传用户:weibiechao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是机器学习领域中一个重要的研究课题.特征选择可以剔除数据集中冗余和噪声特征,得到一个精简且判别能力更强的特征子集,从而避免学习过程中的“过拟合”问题,提高模型的泛化能力和可解释性,减少数据的采集量和存储量,节省训练和预测时间.岛正则化方法在特征选择中具有重要地位,已成为当前研究的热点课题.在标准的支持向量机中所使用的L2范数不具备特征选择的能力.为了能在学习分类模型的同时实现特征选择,常采用L0范数或L1范数正则化方法.但Lo-SVM是一个难以求解的组合优化问题,而Li-SVM存在欠稀疏的缺点,因此介于两者之间的LP-SVM(0<p<1)引起了国内外学者的关注.本文研究支持向量机特征选择中的Lp正则化方法.主要研究成果如下:1.针对LP-SVM(0<p<1)的目标函数非光滑非凸且非Lipschitz连续的问题,本文提出LP-SVM(<p<1)的一个等价模型LOSC-SVM.该等价模型具有线性目标函数和光滑约束条件,从而可利用光滑约束最优化的成熟算法有效求解Lp-SVM(0<p<1).我们证明了LOSC-SVM与LP-SVM之间的等价性以及LOSC-SVM的若干良好性质.该等价模型的建立为求解LP-SVM问题开辟了新途径.人工数值实验验证了模型的有效性,并表明不同结构的数据集适用不同的正则化阶次p.真实数据实验结果表明,采用自适应正则化阶次p的LOSC-SVM在特征选择和分类上的性能均优于L1-SVM.与已有的求解LP-SVM问题的SLA-SVM算法相比,LOSC-SVM的结果更稳定.2.大量计算研究表明:L1/2正则化可作为Lp(0<p<1)正则化问题的代表.在此研究成果之上,本文侧重于研究求解L1/2-SVM的数值算法.基于L1/2-SVM的等价约束模型,我们提出一种求解L1/2-SVM问题的内点法,并证明算法的收敛性.人工数据实验结果表明,与L0-SVM和L1-SVM相比,L1/2-SVM能够更准确的找到相关且非冗余的特征.真实数据实验表明,L1/2-SVM可获得比L0-SVM更精确的分类结果,以及比L1-SVM更稀疏的特征选择结果.3.本文研究求解L1/2-SVM的惩罚序列线性规划算法(PSLP)该算法利用线性规划逼近最优解,适用于变量和约束都很多的大规模问题.我们将PSLP算法应用于具有高维小样本、高噪声、高冗余等特点的基因表达谱数据集.数值实验结果表明,PSLP算法的准确性高于求解Lo-SVM的FSV算法.与L1-SVM相比,PSLP算法不仅能找到比L1-SVM更少的特征基因,而且可获得比L1-SVM更好或相当的分类结果.我们统计得出各数据集中频繁被选择的前十位基因,为生物学的进一步研究提供参考.4.本文对Lp正则化支持向量机在特征选择方面的能力进行理论分析.我们首先分析对特定数据进行特征选择的可能性,研究表明支持向量机实现特征选择不仅与目标函数采用的范数有关,还与数据本身有关.然后推导出一个用于度量支持向量机特征选择能力的概率计算公式,并应用该公式计算LP-SVM在p不同取值时的特征选择概率.计算结果表明,较小的正则化阶数p有助于提升LP-SVM的特征选择能力.
其他文献
在卫星、雷达、电子战以及下一代无线通信等实际应用中对微波信号频率的要求越来越高,但由于“电子瓶颈”的制约,用传统电域的方法产生高频率的微波极为困难,而微波光子学的
中国农村、牧区村民自治制度是我国的一项基础民主制度,是我国社会主义民主政治建设的主要成果,是我国农牧民民主权力的重要保障。实施村民自治是广大农牧民直接行使民主权利
日本公务员的共济年金与私营部门雇员的厚生年金给付在现实中存在较大差距,产生该差距的成因体现为历史原因,即传统"恩给制度"与福利国家合作主义体制的并存与变化、经济与社
<正>一、资产剥离概述资产剥离是指对一个部门的清理或者放弃对某一子公司的控制权,即企业将其所拥有的资产、产品线、经营部门、子公司出售给第三方,以获取现金或者股票或者
随着社会经济的发展,因违反安全保障义务而引起的侵权纠纷案件亦呈现上升趋势。安全保障义务作为一把双刃剑,其利弊也很突出,尤其是经营者或场所管理者因第三人侵权或犯罪行为所
在一些组织中,为了节约成本,往往会搭建一个公共平台以实现资源共享,此时,各决策单元(Decision Making Unit,简称DMU)在从公共平台获取利益的同时,也要承担相应的公共费用支
<正> 四肢淋巴水肿患者的治疗,现在使用以呋噻米为主的利尿药,但长期使用可出现高尿酸血症、低钾血症等副作用。汉方疗法可减少长期服药患者的副作用。观察对象为四肢淋巴水
公证文书功能的扩张是公证制度变迁的主要表现,这种变迁的直接后果便是对传统诉权理论的冲击。以新制度主义变迁理论为视角,重新诠释公证文书制度的供给与均衡,并阐释公证债
为应对石油危机和大气污染两大全球性问题,汽车行业对以天然气为主的气体燃料发动机进行了深入研究。本文以测试气体燃料发动机喷嘴基本工作特性为主要目的,开发了一套发动机气
随着改革开放的深化和中国经济的腾飞,旅游产业得到了前所未有的飞速发展。汉英导游口译员的需求量也在不断增大,同时对导游口译的质量提出了更高的要求。汉英导游口译的好坏