类内结构支持向量机学习算法研究

来源 :北京交通大学 | 被引量 : 15次 | 上传用户:zj149099548
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则的基础上的一种机器学习方法。它根据有限的数据信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的泛化能力。支持向量机具有坚实的数学理论基础,能够较好地解决有限样本、非线性、过学习、高维数和局部极小点等学习问题。由于其优越的性能,已被广泛应用于许多领域中,并已成为机器学习领域的研究热点之一。本文对支持向量机理论进行了深入地研究,指出其在寻找最优分类超平面的过程中忽略了一种重要的先验知识,即样本的类内结构。为此,本文研究了类内结构支持向量机算法,即基于样本的类内离散度提出的改进支持向量机算法,随后分别对目前存在的噪声问题、孤立点检测问题、不平衡数据学习问题做了进一步的研究。主要工作如下:(1)指出现有的支持向量机算法模型中存在的问题,即忽略了样本的类内结构。分析了支持向量机与Fisher判别分析算法的相似点与不同点,提出基于类内离散度的支持向量机(WCS-SVM)算法。该算法的基本思想就是寻找一个最优分类超平面,不仅将两类样本尽量正确分开,在保持较高分类精度的同时最大化分类间隔,而且使得样本的类内离散度尽可能的小。数值实验证明了此算法具有良好的分类性能。最后,将无监督聚类技术同WCS-SVM算法结合起来用于网络入侵检测中,进一步验证了算法的有效性。(2)在模糊支持向量机中,为了更好地刻画训练样本对分类超平面的贡献,提出一种新的基于样本紧密度的模糊隶属度函数设计方法。该隶属度函数不仅考虑了样本与所在类中心之间距离,同时还考虑了类内样本之间的紧密度。重点在于我们引入两个参数来分别控制正负两类样本的紧密度,这两个参数需要预先设定。文中,我们通过支持向量数据描述算法来确定这两个参数。数值实验证明了该隶属函数可以更好地降低噪声或野值点对分类结果的影响。为了更好地处理被噪声污染的数据集分类问题,对于每个训练样本赋予不同的模糊隶属度的同时,考虑了样本的类内结构,提出新的基于样本类内结构的模糊支持向量机(WCS-FSVM)算法。文中详细地给出了算法的推导过程的同时,严格证明了该算法的收敛性。数值实验验证了该改进算法的有效性,降低了噪声的影响,提高了分类精度。(3)孤立点检测是数据挖掘和机器学习的研究热点之一。它的任务就是从已有观测数据中建立正常行为数据的模型进行异常行为的检测。我们充分利用样本信息,对一类支持向量机算法进行了改进,并将其应用于孤立点检测中。实验中,我们采用总正确检测率与Kappa系数k作为性能评价标准,与其它一类标准算法GDD、 NNDD、 PCA、 OC-SVM进行比较。结果证明该改进算法是有效的,优于其他比较算法,在一定程度上提高了检测率。(4)不平衡数据广泛存在于实际应用中,不平衡数据学习也是目前机器学习和数据挖掘领域中的研究热点之一。对于支持向量机来说,正负训练样本不平衡会引起分类超平面向少数类偏移。为了有效抑制分类超平面的偏移,本文提出了基于类内结构的不同误分代价支持向量机算法。该算法不仅对少数类和多数类分别采用不同的误分代价(对少数类赋予更大的惩罚因子),而且同样考虑了样本的类内结构,较好地减少了样本数目不平衡对分类性能所产生的影响。实验中,我们采用G-means作为性能评价标准。实验结果证明了该算法的有效性,既可以提高少数类样本点的分类准确率,也可以提高正负类样本点分类准确率的几何平均值。
其他文献
体育锻炼能够促进个体的身心健康,运动APP的体育锻炼监督功能对大学生身体素质具有重要的促进作用。在高校体育教学改革中“互联网+体育”是目前大学体育教学改革新的突破点。本研究主要以运动APP在广州高校大学体育中的应用为研究对象,分析所调查的4所高校运动APP的使用情况,研究运动APP的应用对体育课及学生锻炼行为、动机的影响,对APP应用过程中存在的问题,提出改进的对策,为高校促进大学生身体素质及体育
目的探讨阿托伐他汀和瑞舒伐他汀强化治疗方案控制冠状动脉粥样硬化进展的疗效及安全性。方法选择87例冠状动脉粥样硬化患者,随机分为观察组(44例)和对照组(43例),对照组给予
宫颈癌(cervical cancer)又称宫颈浸润癌(invasive carcinoma of cervix uteri),是最常见的妇科恶性肿瘤。发病率仅在乳腺癌之后,发病率为女性恶性肿瘤的第2位,严重威胁着妇女的健康
摘要:《PLC原理及应用》是高等职业院校一门重要的专业课程,结合个人几年来的教学实践摸索,本文主要从PLC课程教学内容的选取、教学的组织设计、教学实践平台的搭建、课程的考核等几个方面对《PLC原理及应用》这门课程的教学过程进行了探讨。  关键词:PLC;教学组织设计;教学实践平台;教学内容  中图分类号:G42 文献标志码:A 文章编号:1674-9324(2015)39-0140-02  可编程
文中提出一个计算掺杂铁基砷化物平均价电子数的方法,研究了掺杂铁基砷化物平均价电子数Zv和转变温度Tc之间的关系,发现他们之间有一定的规律性,由此,提出用平均价电子数作为提高
学生数学学习的逻辑起点是静态的,而现实起点是动态的,是预设中的生成。在数学教学过程中,虽然在课堂教学展开之初,教师可能先选取一个点切入教学,但随着课堂教学的展开以及师生、
目的 通过分析盖山镇居民1996-2005年死因状况,了解盖山镇居民健康状况。方法 应用流行病描述性方法分析该镇居民前10位死因,各年龄组死亡水平及慢性病死亡情况。结果 全镇10年
首先介绍了导体的测试结果;其次,为评估迫流冷却的二极NbTi超导磁体正常工况下对液氦产生的低温热负荷,基于surf152表面效应单元对线圈盒进行了辐射传热分析;此外,为减小通过
影像相减法是一种通过明晰同一地点前后图像的动态变化、解读宏观资源变迁的一种图像处理方法,在土地、农业、医学、天文、监控系统等多领域均有广泛的应用,对于城市景观变迁
摘要:思想政治理论课教学方法改革对于提高思想政治理论课教学实效性具有重要意义。教学方法改革是时代发展的要求。为适应现时代的特点以及思想政治理论课本身的性质,教学方法改革要体现以人为本,加强学生的主体地位,尊重学生的个性发展,加强实践教学,理论联系实际,并充分利用现代化教学手段。  关键词:思想政治理论课;教学方法;改革  中图分类号:G641 文献标志码:A 文章编号:1674-9324(