论文部分内容阅读
支持向量机是基于统计学习理论的新一代机器学习技术。和传统的基于数据的学习方法采用经验风险最小化原则不同的是,它是建立在结构风险最小化原则的基础上,因此能够较好地处理小样本情况下的学习问题。并且,它较好地解决了以往困扰很多学习方法的过学习、高维数、局部极小点等实际问题。目前,统计学习理论和支持向量机作为小样本学习的最佳理论,受到越来越广泛的重视,成为人工智能和机器学习领域的研究热点。目前,统计学习理论正处于一个向实际应用推广的阶段。支持向量机的算法需要进一步的改进与完善以适应实际问题的需要。本文在分析了支持向量机的基本理论和基本性质的基础上,立足于分类问题,针对不同类型的训练与简化算法存在的不足之处,提出了新的训练与简化算法,克服了现存算法存在的缺陷,提高了支持向量机的训练与分类效率。本文的主要工作如下:1、针对结合可行方向策略的序贯最小优化(SMO)算法存在的缓存命中率低下问题,提出了一种改进工作集选择策略的SMO算法,并从理论上证明了其收敛性。改进的工作集选择策略综合考虑算法收敛所需的迭代次数及缓存效率,从总体上减少了核函数计算次数,因此相应的SMO算法的训练速度较采用可行方向策略的SMO算法有了很大提高。2、针对目前预处理类型的支持向量机训练算法训练所得分类器泛化性能低、分类时间复杂度高等缺陷,提出了一种新的预处理类型的支持向量机训练算法。该算法通过创建一相对粗糙的分类超平面来实现潜在支持向量的选择,从而减小支持向量机对应二次优化问题的规模,降低支持向量机训练所需的时间及空间复杂度,因此适用于大规模数据集的训练。该算法不仅基本维持了原始分类器的分类精度,而且训练完毕后具有较少的支持向量,因而对应的结果分类器具有较快的分类速度。3、针对目前适用于超大规模数据集的支持向量机训练算法大多依靠经验观察,缺乏理论保障的情况,提出了一种基于近似解的支持向量机训练算法:Approximate Vector Machine(AVM)。AVM算法采用增量学习的策略来寻找近似最优分类超平面,并且在迭代过程中采用了热启动及抽样技巧来加快训练速度。理论分析表明,该算法的计算复杂度与训练样本的数量无关,因此具有良好的时间与空间扩展性,适用于超大规模数据集的训练。4、目前的支持向量机简化法在寻找约简向量的过程中需要求解一个无约束的多参数优化问题,这样,像其它非线性优化问题一样,求解过程需要面对数值不稳定或局部最小值问题。为克服现存方法存在的不足,提出了一种新颖的基于核聚类的支持向量机简化方法,此方法首先在特征空间中对支持向量进行聚类,然后寻找特征空间中的聚类中心在输入空间中的原像以形成约简向量集。该方法概念简单,在简化过程中只需求解线性代数问题从而克服了现存方法存在的瓶颈。实验结果表明,此简化法能够在基本保持支持向量机泛化性能的情况下极大地约简支持向量,从而提高分类器的分类速度。