论文部分内容阅读
近些年来,由于机器学习所面临问题的复杂化,基于单个核函数的支持向量机已经不适应于复杂大规模数据下的应用。为了更好地处理复杂异构大规模数据集,进一步提高支持向量机的泛化能力,基于多核函数的多核支持向量机已开始崭露头角。然而由于多核函数和多特征集的引入,多核支持向量机的训练过程变得更加复杂,故多核支持向量机算法的学习效率较低。自多核支持向量机出现以来,寻找多核支持向量机高效求解方法,设法提高其学习效率一直都是研究的热点。针对这个问题,已有的研究成果多集中于优化多核问题的求解过程以提高学习效率,而通过优化训练数据集来简化多核支持向量机学习过程的研究还比较少。所以通过优化缩减训练数据集从而简化学习问题,以提高多核支持向量机学习效率是一个值得尝试的思路。本文详细介绍了多核支持向量机的原理和思想以及已有提升多核支持向量机学习效率的研究成果,并提出了基于协同聚类的简化多核支持向量机算法。协同聚类是一种基于k-means聚类和协同学的算法,它可以在训练数据集中找到小规模最可能成为支持向量的样本点。通过协同聚类方法,可以在基本不丢失分类信息的前提下减小训练数据集的规模,这可以在保证分类精度基本不变的前提下,明显提高多核支持向量机算法的学习效率。实验结果分析表明,基于协同聚类的简化多核支持向量机能显著提高多核支持向量机的学习效率,尤其是在大规模训练数据集上效果尤为明显。此外,多核支持向量机采用一对多策略处理多类问题时会产生数据不均衡现象,且多次重复使用全部数据集生成分类器,效率较低。本文进一步改进了协同聚类算法,将其用于多类问题以改善训练数据不均衡现象,提出了简化多类多核支持向量机,实验结果表明该方法能有效提高多核支持向量机处理多类问题的效率和准确率。