支持向量机中的若干问题研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:w2119h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机的思想最早出现在前苏联学者Vladimir N.Vapnik和Alexander Y.Lerner1963年发表的研究论文。经过几十年众多学者的努力,支持向量机已经成为机器学习、数据挖掘和模式识别领域中的一种经典算法。随着机器学习研究的发展,支持向量机也从最初的二分类问题、回归问题扩展到其他机器学习课题,如:特征选择、半监督、顶序学习、有序回归、异常值检测、多视角学习等。在这些新课题中,由支持向量机发展来的模型继承了大部分的原有特性,如:间隔理论、核技巧、结构风险最小化等;同时也继承了原支持向量机模型中的缺陷。有关支持向量机模型缺陷的研究一直是机器学习领域的研究方向之一。这些研究对于支持向量机及其变体也有重要意义。本文主要研究了支持向量机解的稀疏性对支持向量机快速学习的作用及标签噪声问题。主要的研究成果及创新如下所示:(1)本文提出了基于寻找靠近分类超平面附近样本的启发式支持向量分类模型样本剪辑方法。靠近分类超平面附近的样本由广义近邻链估计。这种方式保留的样本更有可能成为支持向量并且包含更少的不可能成为支持向量的样本。与以往寻找不同类别重叠区域样本的启发式支持向量机分类模型样本剪辑方法相比,本文的方法不需要假设不同类别之间存在重叠区域。在多个数据集上的实验结果表明,基于广义近邻链的启发式样本剪辑方法可以使得支持向量机分类模型保留尽可能少的样本并且不增加时间复杂度的前提下,获得与原训练集相近的分类精度。(2)对于支持向量机回归模型训练数据集样本剪辑,本文首先证明了支持向量位于以决策函数f(x)为中心,宽度为2ε的管道外(上);其次,证明了这样的样本位于数据分布的边缘;然后提出了通过样本标签首先确定样本k近邻的候选集,在候选集里寻找k近邻并通过k近邻分布差寻找可能位于数据分布边缘的样本。由于样本的标签只是一维,确定k近邻候选集的过程可以在O(1)时间复杂度内完成。当样本的标签分布均匀时,k近邻候选集的大小与数据集大小无关,只与近邻数k有关。因此,本文提出的基于候选集寻找k近邻的寻找可能成为支持向量样本的方法时间复杂度为O(n)。对于包含463,715个训练样本的Year Prediction Million Song Dataset(MSD)数据集,本文的算法可以在10秒内完成寻找可能成为支持向量的样本,而仅保留1%的样本时MSE与完整训练集相差无几。(3)本文提出了以间隔宽度与样本到分类面的距离的比值作为样本权值的加权支持向量机分类模型。对于靠近分类超平面附近的样本被赋予较大的权值。这与支持向量机分类模型靠近分类超平面附近的样本更重要一致。多个数据集上的实验结果表明,我们的方法分类精度要好于原支持向量机和基于密度间隔的支持向量机。(4)本文提出了结合非监督奇异点检测的鲁棒一分类支持向量机模型以及鲁棒的由一分类支持向量机发展而来的多类监督奇异点检测模型。对于一分类问题和多类监督奇异点检测问题,训练集中被错误标注的样本被当作所标注的类别中的异常值并由非监督奇异点检测算法赋予较小的权值。因此,结合非监督奇异点检测的一分类支持向量机和多类监督奇异点检测算法对于错误标注样本更加鲁棒。
其他文献
复合固体推进剂在航天和兵器领域的应用越来越广泛,经常受到不同形式的动态载荷,其中较重要的有冲击载荷和循环载荷。复合推进剂在动态加载下不仅表现出非线性力学特性,还会出现自热效应,宏观表现为自身温度的升高。由于复合推进剂的力学行为对温度高度敏感,因而其温升又反过来影响其力学行为,说明复合推进剂在动态载荷加载下存在显著的热力耦合特性。为了研究复合推进剂的热力耦合特性,进行了系统的实验与理论分析,主要内容
目的 探讨尿路感染对膀胱癌患者Toll样受体(TLRs)信号通路和炎症、免疫功能的影响。方法 选择2017年4月-2020年4月唐山市工人医院收治的105例膀胱癌术后尿路感染患者为研究组,另择同期收治的55例未发生尿路感染膀胱癌患者及50名健康体检者纳入非感染组及对照组,分析各组TLR4、TLR9基因相对表达量;测定CD3+、CD4+、CD8+T淋巴细胞及免疫球蛋白M(Ig M)、Ig G、Ig
电液伺服系统具有功率-体积比大、承载能力强、响应速度快等特点,尤其在需要较大操纵力矩的大型弹箭飞控系统中作为舵系统有着广泛的应用,其按照飞控系统的指令控制空气舵,燃气舵的偏转,控制摆动喷管的运动等,从而实现弹箭飞行姿态的调整。除此之外,电液伺服系统也被较多地应用在其他国防,民用工业领域。随着机械工作精度、响应速度和自动化程度的提高,各个领域对电液伺服系统的控制精度要求也不断提高,这不仅要求液压控制
陈云是伟大的无产阶级革命家、政治家,杰出的马克思主义者,是以毛泽东为核心的第一代中央领导集体的重要成员,以邓小平同志为核心的第二代中央领导集体的主要成员。在长期领导经济建设工作实践中,他坚持从中国的实际情况出发,对中国如何走出一条适合国情的社会主义建设道路,进行了全方位的思考和探索,形成并实践了一系列极富创造性的思想,为中国特色社会主义经济建设道路的探索做出了巨大贡献。建国以来的经验充分证明,中国
空间互联系统是由许多相似的子系统与相邻子系统间相互作用、相互关联组成的大系统,而且每个子系统的输入和输出信号同时依赖于时间和空间。虽然每个子系统模型简单且易于控制,但当把它们视为一个整体时,整个大系统维数很高,变得复杂难控。因此,近年来,由于子系统互联的复杂特性与在卫星群系统、飞机编队飞行系统、自动高速公路系统的车辆编队系统、纸张和胶片加工过程中的交互控制以及偏微分方程的集中近似等等中的广泛应用,
深度学习方法在自然图像、自然语言等众多机器学习领域取得了较好的性能,从而引起了学术界和工业界的广泛关注。深度学习研究的是一大类拥有多层非线性变换的模式识别系统,这些系统将数据从低往高逐层抽象,相比于浅层方法更适合于对真实世界中的高度非线性问题进行建模。随着人们对社会公共安全的日益关注以及视频采集技术和大规模数据存储技术的发展,我们对于大规模监控系统下的视频内容进行自动化和智能化分析的需求也越来越多
随着智能手机、监控系统等设备的普及,现实生活中生成的数据越来越多,如何从这些高维数据中提取所需知识变的越来越重要。子空间学习可以有效分析和利用这些数据,并已被广泛应用于各种数据挖掘和计算机视觉任务中。然而传统的线性子空间学习是基于向量数据进行的,它在处理高阶张量时会产生非常高维的向量,从而导致大量的参数估计问题。多线性子空间学习是线性子空间学习的一种高阶泛化,其把高维张量直接映射到低维空间而不需对
21世纪作为“质量的纪元”,企业之间的竞争最终归结为产品质量的竞争。因此,先进的质量监控理论和方法已成为了学术界和工业界的研究热点。控制图(Control Chart)作为统计过程监控(Statistical Process Monitoring,SPM)的重要图形工具之一,主要是应用数理统计的方法和技术,对生产过程的各个阶段进行在线监控,根据采集的过程数据信息对系统运行状况进行统计推断,提前预防
随着现代防空反导防御体系逐渐体现出网络化、层次化的发展特点,单枚导弹突防面临着越来越多的挑战,难以发挥理想的打击效能。在此背景下,多导弹协同作战由于其要求各导弹同时命中目标、能在短时间内对目标进行高密度的饱和攻击、突防能力强、毁伤概率高,近年来逐渐成为国内外制导研究的热点。多导弹分布式协同制导律是关系导弹飞行和实现多导弹协同作战的关键,其设计不仅要依据导弹自身性能,还必须要考虑弹间通信因素的影响。
对于具有高可靠、长寿命特征的弹药,传统的寿命及可靠性评估主要依赖于加速寿命试验,但是随着我国制造水平的日益提升以及更多新材料、新技术被用于弹药系统中,在短时间内很难得到足够的加速寿命数据用于常应力条件下的弹药贮存寿命评估,因此基于退化数据或加速退化数据建立退化模型成为可靠性和寿命评估领域的趋势。Wiener过程模型是一种随机过程模型,既可以用于具有单调退化特征的产品,又适用于非单调退化的情形,且具