论文部分内容阅读
支持向量机是由统计学习理论发展而来的一种机器学习方法,是众多机器学习方法在发展过程中从经验风险到结构风险的一次重大理论突破。它对传统机器学习方法中难以处理的小样本以及非线性等问题具有特有的优势,被广泛应用于人工智能领域。支持向量机对非线性可分问题拥有较好的学习能力,这是因为它是一种基于核的学习方法。核函数的引入使得支持向量机模型不必再针对输入空间计算内积,而是将输入空间嵌入到高维特征空间中进行计算。这样不仅可以实现非线性问题的分类,同时也降低了计算的复杂度。然而,各核函数相对应的映射方式不同,也就是核函数蕴含的度量特征不同,故核函数对支持向量机模型的泛化性能有着极其重要的影响。因此,针对支持向量机模型在训练的过程中怎样高效地选择核函数是支持向量机研究中至关重要的部分。核函数决定支持向量机模型性能的关键点在于通过映射使得输入的样本点在特征空间中的相互关系。而现有核选择研究大多数仅考虑核函数本身的特征,如全局特性、局部特性等,或者根据经验进行选择。这些核选择方法显然存在着一系列的偶然性和局限性,故本文针对训练样本蕴含的先验信息以及不同核函数生成的核矩阵的特征信息进行综合分析,设计出基于输入样本先验信息的支持向量机核函数选择机制。主要工作有:1.对支持向量机相关理论进行阐述,通过相应的理论推导引出本文研究的重点—核函数,首先对核函数的定义、核函数的性质以及常用的核函数等方面加以描述;然后从黎曼度量、距离度量和角度度量详细地分析核函数所蕴藏的特征信息;最后从研究背景、理论依据以及实际具体问题的先验信息分布等方面做出阐述,对后续研究内容做一铺垫。2.由于诸多实际问题可以借助图论知识加以表达,本文创造性地将图论中无向图邻接矩阵的概念与输入样本相结合,然后针对生成的邻接矩阵进行分析得到样本分布信息,并利用主成成分分析方法求得邻接矩阵的本征维数,以及结合不同类型的核函数所蕴藏的本征维数,从而确定选择核函数类型。最后通过不同的数值实例仿真,验证本文方法能够在充分考虑样本先验信息的前提下有效地进行核选择,避免核函数选择的盲目性。3.针对实际问题中往往无法用整数描述给定样本的本征维数,同时对于复杂问题简单核函数也难以使生成的模型拥有较好的性能。本文建设性地借助分形几何中的分形维数对样本的先验信息进行估计,同时依据分形中自相似性的特点进行基核函数选择或者混合核函数选择。首先利用关联维数的方法计算训练样本的分形维数,并通过实验分析得出阈值进行核函数的选择;然后引入信息熵对训练样本的分布信息表征,以此为基础选择或者组合适合于具体问题的核函数。该方法即可以有效地对训练样本的先验信息进行计算,又能够兼顾核函数的特征信息,并通过相应的数值实例仿真验证了其有效性。4.考虑到上述研究均是以UCI中的数据为基础进行的,本文利用在上海某公司实习期间所采集的数据与基于深度学习和人脸五官点信息的人脸姿态分类算法分别进行了相应的仿真实验,以测试上述核函数选择方法的优越性。通过具体实例仿真得到,利用本文方法选择的核函数构造支持向量机模型对人脸姿态分类的准确率要比基于深度学习的方法分类准确率高,同时在运行时间上支持向量机模型的速度远优于深度学习模型的运行速度。通过对UCI数据库中的数据以及现实生活中提取的人脸数据进行仿真证明,上述方法在充分运用样本的先验信息与核函数的特征信息进行核函数选择的方法是行之有效的。