支持向量机和支持向量域描述的若干问题研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jq1983wyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是基于统计学习理论提出的一种新型有监督模式识别方法.采用结构风险最小化原则,SVM在最大化分类间隔和最小化分类误差之间取得折衷,以控制分类器的泛化能力.SVM较好地解决了小样本、高维数及非线性等实际问题,具有拟合精度高、选择参数少、推广能力强和全局最优等特点.SVM成为机器学习领域新的研究热点,并被广泛应用到模式识别、函数拟合和密度估计等领域.本文针对大规模样本集的SVM训练问题、SVM的集成学习问题、变形SVM问题、支持向量域描述(Support Vector Domain Description,SVDD)的快速训练问题等进行研究,主要研究工作如下:1.研究了大规模样本集的SVM训练算法.SVM在训练大规模样本集时面临着占用内存多、计算代价大的问题,这也成为实际应用的瓶颈问题.基于并行学习中“分而治之”的理念和“支持向量与全体训练样本等价”的结论,提出一种同心超球面支持向量机(Hypersphere Support Vector Machine, HSVM).HSVM以相同层数的两组同心超球面组对正负两类样本进行分割,对分层间隔内的样本采用SVM训练,合并所有分层间隔中支持向量的并集以参与最终的SVM训练.HSVM既保持了SVM的分类精度又降低了SVM的训练时间.2.研究了SVM的集成学习算法.运用集成学习的理念构造了一种空间支持向量域分类器(Space Support Vector Domain Classifier,SSVDC).选取支持向量域分类器(Support Vector Domain Classifier,SVDC)和K近邻(K Nearest Neighbor,KNN)作为子分类器,SSVDC以选择集成的策略对两者的预测结果进行集成.SSVDC首先采用SVDD求得两类样本的最小包围超球,并以超球的描述边界将训练样本划分为互不相交的几个区域;其次计算待测样本到两个最小包围超球球心的距离,根据其与两个最小包围超球半径的大小关系判断待测样本所处区域;最后选择相应的子分类器得到最终的分类结果.由于子分类器均针对样本的某个子集进行训练,SSVDC具有较短的训练时间.由于根据样本的分布选取相应的子分类器,SSVDC具有较高的分类精度且其分类精度受核参数变化的影响不大.数值实验验证了SSVDC的有效性以及对比SVM和SVDC的优越性.3.研究了变形SVM算法.通过改变原始优化问题的函数项、变量或系数得到了一系列变形SVM算法,这在一定程度拓宽了SVM的应用范围.针对变形SVM中的二次损失函数SVM,构造一种光滑对角加权支持向量机(Smooth Diagonal Weighted Support Vector Machine,SDWSVM).在线性空间中,直接运用光滑技术得到光滑模型,也即采取Sigmoid函数的积分函数来逼近正号函数形式的松弛.在非线性空间中,先分别利用Lagrange乘子向量来代替分类超平面的权值向量和原-对偶规划隐含的分类超平面的权值向量表达式对原规划的目标函数进行转换,再利用光滑技术构造光滑模型.对线性空间和非线性空间中得到的光滑模型,均采用Newton法求解,具有较高的效率.4.提出了一种约简支持向量域描述算法(Reduced Support Vector Domain Description,RSVDD).SVDD的训练即为求解一个所含未知数个数等于全体训练样本个数的凸二次规划.为了提高SVDD的训练速度,RSVDD对每个样本定义一种自中心距离比值,定义此值为该样本到中心的距离与所有样本的平均中心距离的比值,并以此值作为判断该样本成为支持向量的可能性度量.RSVDD选取自中心距离比值较大的部分样本参与SVDD训练,从而减少了待解QP的规模.该算法引入参数少,易于实现且保持了目标类精度.5.提出了一种信赖支持向量域描述算法(Confidence Support Vector Domain Description,CSVDD).由于支持向量往往分布在SVDD的描述边界附近,基于这个几何特性,定义了一种信赖抽样方法以提取部分样本参与SVDD训练.依次以每个样本为中心,做一个以某定长为半径的超球.统计落入该超球中的训练样本数目,并将该值作为判断中心样本属于支持向量的信赖度量(Confidence Measure).根据信赖度量的值将训练样本升序排列,CSVDD提取排在前面的部分样本作为边界向量集参与最终的SVDD训练,缩短了SVDD的训练时间并保持了SVDD的目标类精度.
其他文献
代表着当今柴油机技术最新水平的共轨式电控燃油喷射技术,通过优化喷油特性,改善燃油燃烧过程,有效降低了柴油机的油耗和污染排放。对该技术的形成背景、原理和性能进行分析,
通过对三年仪器化检验数据进行统计分析,分析了反射率、黄度与杂质含量关系;棉花反射率、黄度与杂质面积及关系;棉花反射率、黄度与杂质面积、杂质粒数关系,最后得出棉花反射
依据中小企业的成因可以把它们分为四种型类:过渡型中小企业、产业限制型中小企业。配套型中小企业、发育不全型中小企业。四种类型的中小企业无论是本质内容还是生命周期规律
本报讯(记者陈张通讯员龙晶晶)11月7日,记者从市农业局获知,2003年以来,我市通过推进“优果工程”,至2007年底,全市水果种植面积达298万亩,总产量达207万吨,水果总面积、单位
报纸
IPC中国技术组按照预先汁划,紧锣密鼓地进行着各种活动,包括IPC-CH-65B印制板及组件清洗指南、IPC-SM-840E永久性阻焊剂和挠性覆盖材料的鉴定和性能规范及IPC-9262-CN组装行业用AOI设
作为新疆首批创新方法(TRIZ)试点企业,克拉玛依市新疆科力新技术发展有限公司首次导入技术创新方法,便感受到它带来的无穷"魔力"——公司的技术骨干运用此方法解决了几年未解决的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
基于2015年中国综合社会调查(CGSS)中的农村居民样本数据,应用倾向得分匹配法对人力资本投入差异对农村居民个体间的收入影响进行深入研究。同时,消除变量之间的自选择性和降
高职英语教学注重培养高水平英文交际能力的人才,这就需要充分运用交流互动教学模式。为了达成让英语成为学生交际工具的教学目的,教师应转变自身角色,融合多媒体教学手段,为学生
旧词新义是一种特殊的语言现象,为了适应这一现象,出现了一类以“旧瓶装新酒”的方式将旧词形赋予新意义的词,即“旧词新义词”。“旧”与“新”是一个相对的概念,无论新旧义之间是否存在联系,只要一个词在某一时间节点前后词义发生变化,都将其视为“旧词新义词”。学界对旧词新义词的传统研究费时费力,因此自动识别旧词新义词的词义演变情况具有十分重要的意义。旧词新义词的音节、词性、结构类型及使用情况的分析是研究旧词