论文部分内容阅读
标准支持向量机的求解属于二次规划问题,对于大样本集的问题,支持向量机的训练时间较长。为了降低时间复杂度,前人提出了近似支持向量机。其中标准的近似支持向量机是一种新型的求解分类问题的方法,它不是二次规划问题,而是一个正则最小二乘问题能求出解析解,因此训练速度大大提高。本文针对数据不平衡问题,提出了一种基于密度加权的近似支持向量机方法,为每一个样本分配不同的隶属度,首先计算每一个样本的密度信息,根据样本的密度信息对样本的误差项进行密度加权。由于每一个样本的密度指标值不同,所以样本对模型的贡献也是不同的,密度加权近似支持向量机给不同的样本赋予了不同的惩罚因子。近似支持向量机使所有的样例都成为支持向量,使得稀疏度无法控制,因此本文给出了一种控制稀疏度的方法,有效地控制了密度加权近似支持向量机的稀疏度。核参数的优劣直接影响分类器泛化能力的好坏,给出了一种核参数选择的方法,使得分类器具有更好的分类性能。将该方法用于UCI数据集中,分别与其他方法进行比较,实验结果表明增量密度加权近似支持向量机具有较好的分类性能。