论文部分内容阅读
模式识别是指对表征事物或现象的各种形式信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式识别技术可用于人脸识别、指纹识别、语音识别和文档分类等。统计模式识别中包含一个重要环节,即根据训练样本建立分类器。研究中发现,建立分类器时同时提高学习能力和泛化性存在一定的矛盾。统计学习理论中,Vapnik基于假设集合的VC维给出了学习器泛化性和学习能力间的关系。可以不严格地认为假设集合VC维越小,泛化性越强,学习能力越弱;而VC维越大,泛化性越弱,学习能力越强。由此不难发现,设计分类器时存在矛盾:学习能力和泛化性很难同时提高。实际工作中,我们通常是在两者间进行一定的平衡与折中。该论文提出一种新的分类方法旨在降低这种矛盾。分类器的建立可以被描述为这样一个过程,即从假设集合中搜索出一个最能分类训练数据的假设。统计学习理论等分析泛化性时是基于假设集合的偏置(VC维),而描述学习能力时同样是基于该偏置,这就是造成矛盾的一个原因。降低矛盾的一个办法就是基于不同的因素改变泛化性和学习能力。论文的基本思想为:学习能力基于假设集合,泛化能力基于搜索策略。让假设集合无偏以增强分类器对数据的学习能力,让搜索策略强偏以增强分类器的泛化能力。该论文主要完成了以下工作:①提出了一种搜索偏置:寻找最大边距分类面。并定义了一类特殊的数据分布pure distribution pair,以及基于该类分布的对偶点对。(注:论文中提出的最大边距分类面与支持向量机不同在于该分类面是与分布相关的曲面,而非平面)②介绍了在数据分布满足pure distribution pair时,寻找训练样本中近似对偶点对的方法,以及基于这些对偶点对建立分类面和进行分类的策略。③讨论了在数据分布不满足pure distribution pair时,消除“噪声”,变换数据使数据分布满足pure distribution pair的方法。④实现了该分类方法,并通过实验,一定程度上说明了该方法在解决“高非线性”数据分布时,较SVM更优,但在处理一类数据时也存在明显的缺陷。