论文部分内容阅读
传统机器学习的方法是以假设样本集趋于无限为前提的,但实际问题中样本集都是有限的。Vapnik等人针对小样本提出了统计学习理论(Statistical Learning Theory,SLT),支持向量机(Support Vector Machine,SVM)就是基于SLT的一种新的机器学习方法。由于SVM严格的理论基础和很强的实际应用能力,已经成为现今机器学习、数据挖掘等方面的热点研究方向。 本文主要对SVM在处理大规模数据集时速度慢的瓶颈,改进算法,讨论相关理论,数值实验和实际应用的结果表明算法是有效的。具体工作表示如下: 第一在理论方面,提出由最大间隔法和平分最近点法将SVM分为代数方法和几何方法,并由此线索论述本文,最后证明这两种方法得到的是同一个分类超平面;讨论了二次规划(QP)与代数方法的联系,阐述了QP算法的改进;结合泛函分析工具对几何算法进行规范,将寻找两凸包间最近点的操作简化为寻找一个凸包中最小二范数的操作;分析了所述算法系列的收敛性和时间复杂度。 第二在算法改进方面,首先结合矩阵形式和公式变换得到一个求解支持向量的代数方法改进;然后对最小序列法(SMO)进行阈值和搜索方面的改进,建立基于缓存机制的SMO算法;提出一种预处理数据集的方法,通过删除同类点,异类点和孤立点三种操作删除了重复反映分类特性的样本点,同时减少了样本集;最后为几何方法设计一个迭代算法。 第三在数值实验和实际应用方面,本文做了数值实验来验证以上算法改进的效果,并分析原因;将SVM算法和预处理算法应用于医学诊断识别中,对来自美国威斯康辛医学院的乳腺癌数据进行训练和测试,得到了很好的分类效果,并且验证了预处理方法在减少运算时间的同时保证了分类正确率,而且在一定情况下可以得到更好的分类精度。