论文部分内容阅读
模式分类就是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是人类以及动物的最基本的智能表现。随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据进行模式分类的要求越来越广泛,越来越迫切。近些年随着研究人员的深入研究,出现了许多优秀的分类算法。如人工神经网络(Artificial NeuralNetwork,ANN),支持向量机(Support Vector Machines,SVMs)和决策树(DecisionTree,DT)等。这些算法的出现极大的促进了模式分类技术在生活中各领域中的应用。然而模式分类研究远没满意的程度。传统分类算法往往需要训练样本充足而且与测试样本满足独立同分有达到令人布。然而现实世界中的分类问题的训练样本集往往存在种种不尽如人意的问题,如样本数目过少、数据分布不平衡、协方差偏移以及样本数目过多,这造成了分类器在分类精度和效率上的不足。因此,提高分类器在各种低质量的训练数据集上分类性能就具有极高的理论研究价值。由于分类器对训练样本集质量的要求比较高,因此合理的进行高质量的训练样本集构造就成为了一个可供选择的方案。本文针对低质量训练样本集上的分类问题,开展了以下几个方面的工作。首先,面向小样本数据分类问题进行训练样本集构造方法研究,提出了一种基于高斯分布的虚拟样本生成方法。该虚拟样本生成方法利用了模式分类中的光滑性假设,在每一个原始训练样本周围利用高斯分布生成一定数目的虚拟样本,实现了原始训练样本集的有效扩充。由于光滑性假设是模式分类中最为普遍的先验知识,因此基于高斯分布的虚拟样本生成方法可以适应更为广泛的问题并且更能保证生成样本的真实性。此外本文证明了即便对于光滑性假设不满足的小样本分类问题,利用虚拟样本进行分类学习效果等价于模式分类中的正则化方法。在iris与sonar标准数据集上的仿真实验说明本文算法可以有效的提高分类器在小样本分类问题上的分类性能。其次,针对不平衡数据分类问题进行训练样本集构造方法研究,利用基于高斯分布的虚拟样本生成方法对稀少类的原始训练样本生成一定数目的虚拟样本,降低类间的不平衡度。并证明了即便对于光滑性假设不满足的不平衡数据分类问题,利用基于高斯分布的虚拟样本生成方法进行平衡化处理之后,分类器的学习效果等价于代价敏感学习。在kdd cup99入侵检测数据集与sonar标准数据集上的仿真实验说明本文算法可以有效的提高分类器在不平衡数据分类问题上的分类性能。再次,面向协方差偏移下的分类问题进行训练样本集构造方法研究,提出了一种从原始训练样本中抽取与测试样本集合满足独立同分布的子集的方法。该方法通过对特征空间进行细化,在子空间进行样本数目匹配,能够使抽取到的训练样本子集与测试样本集近似满足同一分布。因此在该子集上的学习可以有效的提高分类器的精度。在改造过的UCI标准数据集上的仿真实验说明本文算法可以有效的提高分类器在协方差偏移下的分类性能。最后,面向大规模数据分类问题进行训练样本集构造研究,对支持向量机分类器提出了一种改进投影的支持向量预选取方法。首先,对于线性可分问题,利用Fisher线性判别分析计算投影直线;对于非线性可分问题,分别采用如下两种该方法进行投影直线确定。其一,利用核函数将原始分类问题映射到高维特征空间,然后计算特征空间的中心向量作为投影直线;其二,利用核Fisher判别分析计算投影直线。其次,从投影直线上选取一定数目的相邻区域的投影对应的样本作为边界向量。复杂度分析显示了该方法具有较低的时空复杂度。在两个人工数据集与一个实际问题数据集上的仿真实验说明本文算法几乎可以和标准支持向量机算法或者SMO算法一样精确,然而却更为高效。