论文部分内容阅读
在机器学习的研究中,间隔最大化是构造最佳分类超平面的有效策略,也是支持向量机的训练目标。在数据集线性可分的情况下,间隔可被定义为距离分类超平面最近的样本点到分类超平面的距离。但是当数据集线性不可分时,支持向量机的间隔就必须通过核函数定义,几何意义不够直观。 为了在线性不可分的数据集原始空间内直观地定义最大分类间隔,Oriol Pujol和David Masip于2009年提出了一种基于特征边界点构造的分片线性分类器--优化几何集成模型。特征边界点是指在对噪声点有鲁棒性的同时位于最佳非线性分类线上,由满足一定条件的样本点对构造的点。优化几何集成模型先计算特征边界点的集合,然后在其基础上构造了一系列的相关基础线性分类器,最后利用Tikhonov正则化过程确定所有基础线性分类器的权重,并构造优化几何集成模型。它不仅具有易于实现的优点,也有几何的直观性。即使在数据集线性不可分的情况下,也不需要映射到高维特征空间。本文进一步研究了优化几何集成模型。主要的研究工作包括以下几方面: 1)针对优化几何集成模型在计算特征边界点集合的过程中包含大量冗余运算且计算效率较低的缺陷,分别利用Gabriel近邻规则及其启发式搜索法加速特征边界点的选取过程,提出了两种改进的几何集成方法--Gabriel几何集成模型和启发式几何集成模型,并与优化几何集成模型进行了比较实验。实验结果表明,Gabriel几何集成模型和启发式几何集成模型在保证分类准确率的情况下有效地提高了特征边界点集合的计算速度,大幅度减少了时间消耗。 2)通过将优化几何集成模型中的特征边界点看作神经网络中的隐藏层节点,证明优化几何集成模型在本质上可以看作成单隐藏层前馈神经网络。利用神经网络的学习能力和隐藏层节点的关系说明优化几何集成模型利用整个特征边界点集合构造分类模型的冗余性,并根据随机函数链接网络的实现原理提出了随机优化几何集成模型,即通过从特征边界点集合中随机挑选部分特征边界点构造最终的分类模型。对比实验证明随机优化几何集成模型在消耗较少的训练时间和空间的情况下获得了和优化几何集成模型相近的分类准确率。 3)为了将优化几何集成模型和随机优化几何集成模型推广到多分类中,本论文将支持向量机的四种多分类方法--一类对多类模式,一对一投票模式,树形模式以及有向非循环图法应用到多分类几何集成模型中,并且根据它们在UCI数据集上进行的实验来比较四种方法的效率和准确率。