基于冗余数据约减的支持向量机学习方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:liu_shuangde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,简称SW)是一种解决模式分类和线性回归问题的机器学习方法。近年来,因其坚实的理论基础和良好的泛化能力而被广泛用于模式识别、医疗诊断和预后、入侵检测等诸多领域。当前支持向量机方法研究中存在着以下问题:1.它是针对小样本的学习方法,当数据集样本量大的时候,支持向量机的训练时间呈现指数级数的增长,使其不能适应海量数据的训练要求;2.支持向量机由于在学习过程中平等对待所有参与训练的数据样本,使其不适合解决不平衡数据上的分类与回归问题。针对以上问题,本文在总结归纳前人研究成果的基础上,应用费歇尔判别率准则和样本加权的思想,深入地研究了基于冗余数据约减的支持向量机和加权支持向量机的学习方法。  论文的主要工作如下:  1.详述了支持向量机方法的理论基础,包括统计学习理论的VC维理论和结构风险最小原理。讨论了支持向量机方法的基本原理和当前支持向量机方法在处理不平衡大数据样本集中存在的问题和国内外的研究成果。  2.提出了一种基于冗余数据约减的海量数据上支持向量机学习方法。该方法应用支持向量存在于最优分类面附近的原理,将数据分为内层和外层数据。即起到分类作用的支持向量分布于数据的外层,而内部的数据样本看做是冗余数据。通过应用费歇尔判别率准则确定外层数据和内部数据的分界面,并将内部冗余数据全部去除,仅保留外层数据参与支持向量机的训练。多组实验结果表明,本方法可在保证良好分类性能的基础上,使其支持向量机训练速度要远远快于传统SVM学习方法的训练速度。  3.提出了一种基于冗余数据约减的不平衡数据的加权支持向量机学习方法,该方法在应用基于冗余数据约减思想的基础上,根据约减后的数据样本对模糊分类面的贡献程度来为样本加权,实现了大样本不平衡数据的加权支持向量机的快速训练。在模拟和真实的平衡、不平衡数据集上,使用加权支持向量机取得的分类实验结果表明,本文所提方法在大样本数据集上的训练速度和分类效果上都优于传统支持向量机学习方法和RW-SVM2(Reduced,weighted SVMtraining)算法,同时在训练之后得到的支持向量个数也远远小于其它对比算法,使得其在对未知数据进行预测分类时的速度得到提升。
其他文献
图形用户界面(GUIs)被广泛地运用于应用软件中,但其大量的使用也为软件的开发和测试带来了极大的挑战。现在的应用程序中,GUI的代码己达到整个软件的60%以上,图形用户界面的
Xen是一种被广泛应用的虚拟化软件平台,具备出色的隔离特性。隔离特性是通过引入VMM层实现的,Xen是VMM的一种具体的实现载体。由于本文的研究涉及到修改VMM的源代码,而Xen开
随着人类活动的日益加剧,软件在人类社会生活中所扮演的角色越来越重要。软件作为一种辅助人类完成一系列任务的工具,不仅应用范围越来越广,单体软件所能完成的功能也越来越
近30年来,随着人工智能领域中定理机器证明之可读证明方法的突破,基于可读证明技术的计算机辅助教学工具的研制已经成为CAI领域的主要研究方向。尤其是从上个世纪末开始,在国内
在当前的大多数实际应用中,数据往往是复杂的、高维的。这些复杂数据中通常蕴含多种合理的聚类模式,从多种不同的视角对这些数据进行聚类分析,能够更全面地理解数据。然而,传统的
云存储是一种基于互联网的全新存储模式,为人们提供高性价比和便捷的存储服务,但其安全性是被广泛关注和研究的热点。为了保证数据的可靠性和完整性,云存储中主要采取两种措施来
在数据挖掘领域,聚类分析是一个重要且备受关注的研究方法,其中包含的基于密度的聚类算法由于可以有效的排除噪声数据,发现任意形状的簇而被广泛的研究。当今处于信息时代,从网络
地面智能机器人是一种可以脱离人的直接控制在地面实时地自主运行的机器人。对地面智能机器人的研究关注的主要问题是自主导航,而自主导航的关键技术是道路场景分割。地面智
无线射频识别技术(Radio Frequency Identification,RFID)是一种非接触式自动识别技术,通常采用电感耦合及电磁反向散射耦合两种方式进行数据交换。由于其同时能够读取多个标签,且
随着互联网交互技术的发展,网络成为了新的交流平台,随之产生了海量的文本数据,针对这些数据的情感分析工作因此而迅速发展。经过十多年的发展,情感分析的研究工作变得更加细