基于大规模训练集的SVM研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:whg_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机基于结构风险最小化,是由Vapnik等人在统计学习理论基础上提出来的。由于SVM具有很好的泛化性能和推广能力,能够较好的解决小样本、高维数、非线性以及大规模的实际问题,因而得到了广泛的应用。随着信息时代的到来,信息产生和传播的速度迅速提高,数据库的规模也越来越大,如何从海量数据中挖掘有用的信息,已经引起人们越来越多的关注。本文在对国内外研究现状进行综合分析的基础上,进一步对大规模训练集上的SVM进行了深入研究。首先,分析了支持向量集在加入新样本后支持向量和非支持向量的转化情况。针对淘汰机制效率不高的问题,提出了一种改进的SVM增量学习淘汰算法——二次淘汰算法。该算法经过两次有效的淘汰,对分类无用的样本进行舍弃,使得新的增量训练在淘汰后的有效数据集进行,而无需在复杂难处理的整个训练数据集中进行,从而显著减少了后继训练时间。其次,在最小二乘支持向量机的基础上,根据局部核函数和全局核函数的各自优点,提出了基于一种基于最小二乘支持向量机的组合核函数方法。并且通过仿真试验实现所提算法和原有算法,与原有算法进行比较分析,该方法较原有算法体现出较好的分类性能。最后,在已经存在的二叉树多类分类方法的基础上提出了一种改进的基于二叉树多类分类算法。确定二叉树多类分类的类别分割顺序是二叉树多类分类的重点和难点,该算法通过使用Clara聚类算法确定二叉树多类分类的类别分割顺序。
其他文献
文本聚类是聚类方法与自然语言处理相结合在文本处理中的应用,是聚类分析领域的一个重要研究分支。随着近年来互联网新闻文本信息的急剧增多,文本聚类的方法得到了很广泛的应
当前的电子行业竞争激烈,大部分企业为提高生产效率都进行了企业信息化建设。虽然企业越来越重视信息化建设,但还是存在信息化技术单一、各系统集成度不高、现有软件不够灵活
本课题重点研究基于径向基函数(RBF)神经网络的动态流量软测量建模方法及实用化技术。针对液压伺服系统中对动态流量软测量模型实时性和精确性的要求,对RBF神经网络建模算法