论文部分内容阅读
基于数据的机器学习一直是智能系统技术中的一个重要和极为活跃的研究方向和热点,其内容主要为研究如何从观测数据(样本)中发现规律,利用获得的规律对未来数据或无法观测的数据进行预测。包括模式识别、函数拟合及概率密度估计等在内的现有的基于数据的机器学习方法共同的重要理论基础之一就是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有的诸如神经网络等机器学习方法也多是基于此假设。但对于大多数实际问题来说,样本数目往往是有限的,因此一些在理论上很优秀的机器学习方法在实际应用中的表现却可能不尽人意。 统计学习理论(Statistical learning theory,SLT)是一门研究小样本情况下基于数据的机器学习理论的科学,其核心归纳原则为结构风险最小化(Structural risk minimization,SRM)原则。支撑矢量机(Support vector machine,SVM)是统计学习理论中最实用、最年轻的部分,是基于结构风险最小化的普适而有效的统计学习理论最具代表性的新型小样本学习机,是结构风险最小化原则的具体实现。作为统计学习理论中最年轻、最具代表性的核心内容,SVM是机器学习领域研究与应用的热点之一,仍处在不断发展与丰富阶段。 针对支撑矢量机面向实际应用的几个关键问题,展开了相应的研究,主要内容包括下面四个方面:将模糊逻辑技术引入传统的SVM中以加速传统SVM的学习速度及提高其性能;提出了基于遗传算法的SVM模型自动选择方法;系统客观地评价了几种常用的SVM泛化性能指标;提出了一种简单高效的SVM泛化性能指标。主要工作可概括为如下五个创新点: (1)由于在多数支撑矢量机中采用全部数据进行优化计算得到稀疏的支撑矢量,在优化过程中不仅对支撑矢量进行优化,也对非支撑矢量进行优化,大大增加了不必要的计算。将模糊逻辑技术与传统SVM相结合,提出了小样本快速学习的模糊预选支撑矢量机(Fuzzy SVM,FSVM)。通过提出的模糊规则,利用近似SVM(Proximal SVM,PSVM)的快速性在原始数集上预选支撑矢量,然后再利用标准SVM在训练样本数大大降低的预抽取的数集上获得通常意义的稀疏的支撑矢量。不但提高了SVM的学习速度,同时保持其原有的较好的泛化能力。人造数据与Iris、Wine和Soy基准数集的实验结果证明了所提方法的有效性。 (2)针对现有的多类SVM有可能出现多个两类分类器无法判别(即拒分)或一个数据属于多类(即误分)的情况,在研究支撑矢量机分类机理的基础上,详细分析了SVM多类分类问题中存在的误分、拒分现象,结合模糊理论,提出