论文部分内容阅读
数据挖掘是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类即通过由经验数据训练得到的分类器预测未知数据的归属,是一种最常见的数据挖掘任务。支持向量机,由于其出色的学习性能,已成为机器学习界的研究热点,并在很多领域都取得了成功的应用。但是作为一种新兴的技术,支持向量机在对数据挖掘领域的分类研究还有待探索和完善。本文在介绍支持向量机的基本理论及其训练算法的基础上,重点讨论了序贯最小最优化(Sequential Minimal Optimization, SMO)算法。SMO算法是训练大规模数据集的有效算法,但是仍存在着训练速度慢、占用空间大的缺点。本文提出了一种双SMO算法。该算法在原数据集的抽样数据集上使用SMO算法得到近似分类超平面,根据近似分类超平面得到原数据集的所有支持向量,再次使用SMO算法得到最终的分类超平面。双SMO算法降低了占用空间,在一定程度上消除了噪音点对最终分类超平面的影响,加速了优化的过程。由于数据挖掘中要处理的往往是多属性大规模的数据集,所以在使用双SMO算法前,需要先进行属性约减处理,以降低计算量,提高算法速度,并使挖掘出的分类模式易于理解。基于此,本文对数据挖掘中多属性问题作了属性约减的讨论,提出了属性约减的双SMO算法。该算法适用于数据挖掘中的分类问题,为建立数据挖掘方案提供了理论依据。为验证双SMO算法的有效性,本文使用该算法对二维的数据集进行了试验,并使用属性约减的双SMO算法建立了一个数据挖掘方案。结果表明该算法提高了SMO算法的性能,缩短了训练时间,降低了占用空间,并在正确率上优于决策树、神经网络和贝叶斯算法。本文把支持向量机引入数据挖掘,为数据挖掘系统的设计提供了一种新的选择。