论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是由Vapnik于1995年提出的针对分类和回归问题的统计学习理论,是在高维特征空间使用线性函数假设空间的学习系统。近年来,其理论研究和算法实现方面都取得了突破性进展,开始成为克服维数灾难和过学习等传统困难的有力手段。由于SVM方法具有许多引人注目的优点和有前途的实验性能,越来越受重视。该技术已成为机器学习研究领域中的热点,并取得很理想的效果,如人脸识别、手写体数字识别和网页分类等。手写数字识别在很多领域具有广泛的应用前景,国内外学者对此做了大量的研究工作,提出了很多预处理和模式识别的算法,大大提高了手写数字的识别精度。但到目前为止,手写数字识别的识别精度还有待提高,核函数核参数选择等问题尚有待解决。为了提高手写数字识别的精度,本文将支持向量机应用于手写数字识别,开发了SVM-HDR软件系统。在系统总结前人工作的基础上,重点研究影响SVM分类法性能的各种因子。把这一选择最佳因子的方法流程化,验证了支持向量机在手写数字识别中的有效性。此外,本文在手写数字的识别过程中提出了引入先验知识的虚拟样本法,期望该方法能对提高基于支持向量机的手写数字识别的精度起到推动作用。本文主要工作体现在以下方面:⑴对多类分类方法进行分析比较。着重对一类对余类法(one-against-all),成对分类法(one-against-one)和有向无环图法(Directed Acyclic Graph,DAG)三种分类方法进行了比较分析。针对具体数据库,在识别精确度、训练时间和测试时间方面进行了实验,为手写数字识别选择适用的多类分类方法。根据实验结果,本文选择使用成对分类方法。⑵对训练算法进行比较分析。对三种主流训练算法:Chunking算法,Osuna算法和SMO算法,在速度、精度和内存节省等方面进行对比。相比之下,SMO算法速度较快,精度较高,比较节省内存,且适合大规模问题的求解。因此,本文选择该算法作为手写数字识别的训练算法。⑶验证支持向量机用于手写数字识别的有效性。鉴于支持向量机的优点,将其应用于手写数字识别来提高识别精度。将各方面选出的最优因子用于SVM-HDR软件系统中,使该过程流程化。对具体的手写数字库MNIST进行数据预处理,归一化,最佳核函数与核参数的选择,训练和测试等操作。将程序结果与使用其他技术对同一数据库的识别结果进行比较,验证了SVM识别方法的有效性。⑷提出引入先验知识的虚拟样本法。支持向量是训练集的一个子集,基本上可以代表训练集中的全部信息,也就是说只有