论文部分内容阅读
在现实世界中,万事万物都有着其特征,这样的特征或多或少、或重要或不重要。人们通过事物的特征可以确定其所属分类,但是当事物的特征都很多时,如果人们依靠传统的方法对事物进行分类就显得耗时耗力,并且分类的精确性不高。而分类作为一种预测模型,如果分类的精确性低或用时长,则这种预测将变得毫无价值。因此人们提出了各种分类模型来对事物进行预测,其中支持向量机和支持向量描述数据在对高维数据进行预测时有着一定的优势,并且根据不同的要求,对这两种算法的改进应用到了现实生活中的许多领域。首先,本文研究了数据挖掘分类算法中的支持向量机的背景和理论,分析并总结了SVM各种改进方法的研究现状。其次,在分析和研究支持向量数据描述几种改进算法的基础上,针对构造SVDD分类器实质上是求解一个优化的二次规划问题,并且影响SVDD算法决策边界的因素为训练样本的支持向量,为了提高SVDD算法的训练速度,引入K-均值聚类和样本相似度,提出了一种基于约减集的两次训练的RSTSVDD算法。该算法以聚类和样本相似度区间的方法将训练样本集划分为多个子集,从这些子集中随机抽取训练样本作为一个训练子集来训练一个SVDD分类器的决策边界,再以分类器的决策边界找出原始训练集的可能支持向量构成一个新的训练子集,来训练另一个SVDD分类器的决策边界。最后,本文在3个不同维的breast-cancer数据集上,分别用SVDD算法、RSVDD算法与RSTSVDD算法进行了实验,并对它们的性能进行比较。实验结果表明,在保持分类精度基本不变的基础上,RSTSVDD算法具有较高的训练速度。