基于多宽度高斯核的支持向量机参数优化与特征选择算法研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:flame_earth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是由统计学习理论发展而来的一种被广泛使用的机器学习分类算法,但是在具体问题中核函数及其参数的选择是决定支持向量机泛化能力的关键因素。本文通过引入泛化能力更强的多宽度高斯核函数(Gaussian Kernel with Multiple Widths,GKMW)取代传统的高斯核函数,以此改善高斯核的单宽度性会限制支持向量机泛化规模的问题。对于多宽度高斯核的参数优化问题,传统的梯度算法存在着对初值过分依赖且容易陷入局部最优等不足,因此本文采用进化算法基因表达式编程(GEP)对该问题进行寻优,基因表达式编程因其更易跳出局部最优等特点近年来被广泛使用在多值优化问题上。同时为了进一步加快寻参速度本文设立一个基于多宽度高斯核的类别分散程度测量准则(GCSC),并将其引入到GEP的适应度函数中,解决原适应度函数需要耗费大量时间训练SVM的问题,在此基础上提出一种改进后的基因表达式编程优化算法——GEPCS算法,以此降低参数优化的计算开销提高运行效率。本文的主要研究内容如下:1.由于多宽度高斯核函数的参数优化实质上是一个多峰组合优选问题,因此相较于传统的梯度算法更适宜于采用进化计算的方式进行寻优。本文首先设立一个基于多宽度高斯核的类别分散程度测量准则(GCSC),该准则可以确定在固定的参数组合下相对应的特征空间中类别之间的分散程度,以此作为参数组合的寻优方向,并将该准则引入到基因表达式编程(GEP)算法中对原适应度函数公式进行改进,解决原适应度函数需要耗费大量时间训练SVM的问题,在此基础上提出一种改进后的基因表达式编程优化算法——GEPCS算法,在解决多宽度高斯核参数优化问题的同时提高算法运行效率。2.面对大数据时代下庞杂的数据规模,支持向量机在处理大规模数据时经常会遇到含有冗余或不相关特征的数据集,为了进一步地提高支持向量机的分类性能,本文根据多宽度高斯核函数不仅能体现各个特征对分类的贡献程度不相同,而且能区分样本中各个特征重要性的特点,以上文多宽度高斯核参数优化的结果为基础,提出一种基于多宽度高斯核的支持向量机特征选择算法,以此降低特征空间的复杂度提高分类性能。3.本文将GEPCS算法应用在标准的UCI数据集上进行支持向量机分类实验,在验证了本文参数优化算法可行性与有效性的基础上通过与传统的参数优化方法进行对比实验,结果表明本文提出的GEPCS算法能找到最优参数组合使得支持向量机的分类准确率接近或超过分类数据集的理论精度,且本文方法相比具有寻参时间更短的优势。同时在参数优化结果的基础上对数据集进行特征选择,实验结果表明本文的特征选择算法能够进一步地提高支持向量机的分类性能,为支持向量机搭配多宽度高斯核时参数的优化及特征的选择提供了一种新的、高效的方法。
其他文献
教育部在2016年发布的《教育信息化“十三五”规划》中提到,到2020年,基本建成“人人皆学、处处能学、时时可学”与国家教育现代化发展目标相适应的教育信息化体系。个性化学
近年来,我国的经济发展从要素驱动转为创新驱动。创新离不开科学技术的发展,而科学技术的发展又与大量的技术引进息息相关。引进技术工作中,包括工程师在内的工程技术人员往
2008年底,中国联通、中国网通经历了电信时代重要的重组历程,重组后形成了全业务经营的中国联通。2009年初,新联通又获得了WCDMA制式的3G运营牌照。经过2009年到2010年这短短
随着互联网的快速发展,在线社交网络逐渐影响人们的生活,成为现代人必不可少的交往方式。通过在线社交网络,人们可以随时随地通过文字、图片、视频等方式跟世界各地的好友分
中国自1978年实行改革开放政策以来,在对外直接投资(Outward Foreign Direct Investment,下文简称为OFDI)方面取得了巨大成就。截止至2015年,中国境内投资者共对全球155个国
在过去的几十年中,人们对离散事件系统(DES)的状态估计和故障诊断问题进行了广泛的研究。一般来说,为了解决状态估计和故障诊断问题,所研究系统的输出信息必须被给出。通常,
旅游业是既年轻又具有发展潜力的产业之一,21世纪旅游业将成为世界最大产业之一和全球服务业中增长速度最快的行业,旅游业和通讯、信息技术将成为推动21世纪经济发展的主要动
培训评估是检验培训项目成败的重要标准,培训评估所获得的信息是改善培训决策的主要依据,培训评估不仅能对培训质量做出恰当的评价,而且评估过程能帮助培训部门发现培训各环
边缘检测是图像处理研究领域的基础,是图像分割、模式识别的前提,是图像处理过程中很关键的一步。现有的边缘检测算法中常存在边缘不连续、定位不够精准、检测出的边缘存在伪
随着互联网的发展和信息化时代的来临,文件云存储技术进入了高速发展时期,越来越多的个人用户和企业用户通过云存储系统存储、共享和传递文件数据,云存储系统通常需要使用专