论文部分内容阅读
支持向量机(SVM)是一种以统计学习理论为基础的数据挖掘新方法.随着统计学习理论的发展,SVM在理论和应用方面都得到了迅速地发展和完善.SVM具有较高的推广能力和解的全局最优性,在解决小样本问题、非线性问题以及高维数据等问题中表现出许多特有的优势,已被广泛应用于处理预测、数据拟合、综合评价以及模式识别等诸多问题中.目前国际上支持向量机的理论研究和实际应用两方面都正处于飞速发展阶段.如何提高分类器的性能、速度、以及处理数据的范围等问题始终是研究者研究的目标.本文主要从机器学习的角度对支持向量机分类、聚类、集成、以及核函数等方面进行研究,对支持向量机算法进行修正,旨在提高支持向量机性能以及处理更为广泛的数据类型.本文主要内容如下:1.支持向量机分类问题研究.针对多源数据分类问题,提出分组特征多核SVM.该方法将不同源的数据进行分组,每组特征分别采用不同的核函数,将这些核函数的凸组合作为新的核函数,并将基于该新核的SVM问题转化为半定规划问题来求解.实验结果表明,该方法可以有效地提高分类器的检测性能.2.支持向量机聚类问题研究.针对支持向量机聚类算法(SVMC)只可以聚集两个类簇的问题,提出多类支持向量机聚类(Multi-Class SVMC)算法.该方法在二分类支持向量机聚类的基础上采用一对多(OAA)策略,将SVMC推广到多类簇问题;此外针对Multi-Class SVMC算法需要预先定义聚类数目的问题,提出分级支持向量机聚类(Hierarchical SVMC)算法.该算法是将数据随机标记为两类,然后采用迭代的方法修正标记,直到标记变得稳定为止.数据被分为两个类簇,基于这两个类簇分别继续采用SVMC算法将类簇向下分裂,直到满足终止条件.与传统的支持向量聚类相比,多类支持向量机聚类和分级支持向量机聚类具有简单易行、速度快、聚类效果好的优点.3.大规模支持向量机算法研究.针对大规模数据分类问题,提出局部差异性自适应推进支持向量机集成算法.该方法将数据平均分成若干块,基于这些子块分别采用差异性自适应推进支持向量机算法.通过网格搜索法调节支持向量机的核参数和惩罚因子将强分类器SVM弱化,再将弱化后的SVM采用自适应推进算法推进为强分类器,最后将局部模型采用投票的方法集成.实验结果表明,局部差异性自适应推进支持向量机在不降低分类器性能的同时可以有效地处理大规模数据分类问题.4.支持向量机集成算法研究.针对支持向量机集成问题,提出多模式扰动支持向量机集成算法.采用自举法对训练样本有放回采样,得到若干子样本集合,在每一个子样本上采用多模式扰动的方法以增加成员分类器的精度以及成员分类器之间的差异性.首先为增加成员分类器间的差异性,在特征扰动方面采用主成分分析法降维;其次为增加成员分类器的精度,在训练模型过程中每个子集通过自动模型选择采用不同的最优参数产生参数扰动;最后是输出扰动,用成员分类器的精度值对输出结果加权,以增大高精度成员分类器对集成结果的影响.与单模式扰动方法相比,该多模式扰动的方法可以提高支持向量机集成性能.5.约减支持向量机分类算法研究.约减子集的选择是约减支持向量机性能的关键影响因素.针对约减子集的选择问题,提出基于噪声的空间密度聚类算法的矩形核支持向量机(DBSCAN-RSVM)该方法采用DBSCAN聚类方法对样本聚类,用聚类得到的核数据作为矩形核的约减子集,并将该矩形核支持向量机转化为光滑支持向量机问题来求解.与传统约减支持向量机、K均值约减支持向量机、以及传统SVM相比,该DBSCAN-RSVM具有更好的检测性能.