论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是一种基于VC维理论和结构风险最小化原则(Structural Risk Minimization, SRM)的机器学习方法。在解决高维模式识别、小样本和非线性问题中表现出了许多独特的优势,并极大地克服了传统机器学习中的“维数灾难”、“过学习”和局部极小等问题。SVM已经成为机器学习领域的研究热点,在分类中表现出了明显的优势,并取得了大量的研究成果,在很多领域都得到了广泛的应用。传统的SVM本质上是用于解决二分类问题的,而在实际中面临的大多是多分类问题。如何将SVM的二分类思想推广到多分类,并有效地解决多分类问题,是近几年SVM研究的重点内容。决策树SVM多分类方法已被广泛用于实际应用中,但是二叉树结构的不同将会大大地影响 SVM分类器的性能。
欧式距离作为最简单、最常用的距离度量方法,当将其直接用于度量类间相似性时,存在很大的问题。它只考虑了两个样本类中心之间的欧式距离,当多个样本类的欧式距离相等时,则无法判断类别之间的相似性;对于已有的球结构方法,当各类样本数据分布不平衡时,分类器的预测具有倾向性,从而降低了分类的准确率;同时构建分类球的计算很复杂。本文通过改进欧式距离,重新定义了一种新的类间可分性度量函数,利用欧式距离计算简单的优点,解决了球结构方法存在的缺陷。
决策树SVM多分类方法存在“误差累积”现象,对分类的精度存在较严重的影响,而且其分类时间也不是很理想。针对决策树SVM分类存在的不足,利用类间可分性度量函数,提出了一种完全二叉树SVM构建的方法,同时研究了其训练过程和分类过程,分析了该方法的训练时间和分类时间。通过完全二叉树的构造,用树中的每个非叶子结点表示一个子分类器,从而实现对未知样本类别的判断。该方法实现了用一组二分类器解决多分类的问题,而且位于相同层的分类器能同时工作,使得训练和分类速度都得到了提高。
通过理论分析和实例验证,将本文提出的类间可分性度量函数和SVM多分类方法与传统的SVM多分类方法做比较。理论分析与实验证明,本文提出的算法训练和分类速度较快,同时分类准确度也得到了提高。
欧式距离作为最简单、最常用的距离度量方法,当将其直接用于度量类间相似性时,存在很大的问题。它只考虑了两个样本类中心之间的欧式距离,当多个样本类的欧式距离相等时,则无法判断类别之间的相似性;对于已有的球结构方法,当各类样本数据分布不平衡时,分类器的预测具有倾向性,从而降低了分类的准确率;同时构建分类球的计算很复杂。本文通过改进欧式距离,重新定义了一种新的类间可分性度量函数,利用欧式距离计算简单的优点,解决了球结构方法存在的缺陷。
决策树SVM多分类方法存在“误差累积”现象,对分类的精度存在较严重的影响,而且其分类时间也不是很理想。针对决策树SVM分类存在的不足,利用类间可分性度量函数,提出了一种完全二叉树SVM构建的方法,同时研究了其训练过程和分类过程,分析了该方法的训练时间和分类时间。通过完全二叉树的构造,用树中的每个非叶子结点表示一个子分类器,从而实现对未知样本类别的判断。该方法实现了用一组二分类器解决多分类的问题,而且位于相同层的分类器能同时工作,使得训练和分类速度都得到了提高。
通过理论分析和实例验证,将本文提出的类间可分性度量函数和SVM多分类方法与传统的SVM多分类方法做比较。理论分析与实验证明,本文提出的算法训练和分类速度较快,同时分类准确度也得到了提高。