论文部分内容阅读
支持向量机(Support Vector Machine, SVM)作为机器学习研究中的一个热点,建立在统计学习理论的VC维理论和结构化风险最小化原理的基础上,在模式识别和时间序列预测等很多数据挖掘领域得到广泛的应用,具有简洁的数学形式、标准快捷的训练方法和良好的泛化性能。目前,SVM在处理实际应用中的复杂庞大数据集时能力非常有限,训练样本的多少极大地影响了SVM的训练效率且SVM在处理特定空间的分类问题时效率不高。因此,如何提高支持向量机的泛化能力且保证训练效率成为支持向量机研究中的一个重要问题,这也是本文研究的目的。支持向量机学习算法在训练过程中容易产生冗余样本,不同的训练样本对于训练过程的贡献度不同,容易错分的样本对构造分类超平面的贡献度较大,而不容易错分的样本对构造分类超平面的贡献度较小。因此,根据样本对决策超平面的贡献程度进而构造粒度支持向量机是一种简化训练复杂度提高效率的有效方法。本文将层次分类思想、粒度计算理论和传统SVM分类方法进行了融合,建立了一种有效的层次粒度支持向量机学习机制,通过引入一个衡量粒的重要性的评价指标,筛选出对建立决策边界贡献度比较大的粒,剔除部分冗余粒,用保留粒中的代表点进行构造支持向量机的训练集。这种学习机制抽取重要分类信息构造训练集进行学习器的训练,分类速度远远高于SVM,同时,由于训练可在不同层次的粒中进行,所以可获得令人满意的优于传统粒度SVM的泛化能力。论文主要工作包括:(1)对传统的SVM模型的构造和原理进行了详细的介绍,指出SVM在解决分类问题中出现的主要问题。对粒度支持向量机的算法思想进行分析和探讨,同时,对粒度支持向量机算法的优点和缺点做了详细的阐述,针对这些问题本文进行了探索研究。(2)提出一种针对大规模数据集分类的层次粒度支持向量机学习算法。这种模型通过定义一个新的数据置信度来挑选出有价值的样本(即对建立决策边界贡献度较大),并在每一层的训练中根据粒的分布情况进行自动粒划分,以获得更好的泛化能力。(3)提出一种针对密度分布不均匀数据集的动态粒度支持向量机学习算法,并对动态粒度支持向量机算法的思想进行探讨和研究。这种模型根据粒的不同分布自动进行粒划分,使SVM可以在不同层次的粒上训练,可以有效地克服传统SVM在处理大规模数据集时训练效率低下的问题,同时,也可获得较好的泛化性能。(4)为了对本文所提出的层次粒度SVM学习算法进行验证,在标准UCI数据集上进行了一系列的实验,取得了满意的预期效果。通过将本文提出的方法与经典SVM算法和传统粒度SVM算法进行实验比较,表明本文提出的层次粒度支持向量机和动态粒度支持向量机算法非常有效。本文提出的层次粒度支持向量机机制可以有效地解决大规模数据集以及数据分布不均匀的分类问题。取得的研究成果在丰富了SVM应用研究的同时,为基于认知的机器学习方法的实用化进行了有益的探索。