论文部分内容阅读
随着信息技术与计算机技术的飞速发展,数据出现爆炸式增长。而这些海量的数据中隐藏着丰富的深具价值的信息和知识,如何对这些信息和知识进行有效的提取并加以利用,成为研究的重点。近年来不断发展的数据挖掘技术就是一种能够帮助人们发掘潜在有用信息的重要手段。支持向量机(SVM)作为一种有效的数据挖掘分类算法,它以统计学习理论为基础引入结构风险最小化,通过在属性空间中构建最优分类超平面获得分类器实现对未知样本的分类,具有泛化能力强,较好的非线性数据处理等优点,但也存在一些不足。本文主要围绕SVM算法展开分析与研究,主要研究成果如下:1.针对FSVM应用于数据挖掘分类中存在对大样本集训练速度慢及对噪声点敏感影响分类正确率的问题,提出了一种基于改进FSVM的数据挖掘分类算法,该算法首先利用预选候选支持向量的方法减少训练样本数目;其次定义一种新的隶属度函数增强支持向量作用,并将近邻样本密度运用于隶属度函数设计中,降低噪声点对分类的影响。试验通过与FSVM和基于类向心度的模糊支持向量机(CCD-FSVM)算法的结果对比,验证提出算法的有效性。此外针对FSVM算法进行数据挖掘分类时分类速度慢的问题,在保证分类正确率的前提下,提出了一种改进的数据挖掘FSVM分类算法。该算法使用预选候选支持向量的方法减少训练样本数目,并训练FSVM得到支持向量集;其次将粒子群优化运用到选择最优支持向量子集中,减少支持向量数目从而提高分类速度。仿真结果表明该算法在保证分类正确率的前提下,相比SVM和FSVM训练速度和分类速度更快。2.针对球向量机(BVM)虽然相较SVM具有较快的训练速度,但是当样本数目不均衡时存在分类性能较差的问题,提出了一种基于改进BVM的不平衡数据集分类算法。该算法先利用训练集分解思想对负类样本进行分解,并分别与正类样本组成平衡训练样本集,然后用旋转森林算法对得到的平衡训练样本集进行预处理并训练基分类器,最后利用集成技术对基分类器的分类结果进行集成,提高BVM的分类性能。试验通过对UCI数据集进行测试,与BVM、ESt SVM、Ada Boost-SVM-OBMS和En SVM算法进行对比,表明该算法对于不同的不平衡数据集分类结果相对稳定分类性能较高,验证了其有效性。3.针对现实生活中存在大量高维不平衡数据,但传统数据挖掘分类算法处理该分类问题时由于受到样本分布和维数的影响导致分类性能不高的问题,提出了一种基于SVM的高维不平衡数据集分类算法。该算法利用改进的核SMOTE算法合成正类样本解决样本分布不均衡的问题,然后在特征空间中运用稀疏表示的特征选择算法对高维数据集进行降维,最后寻找合成样本在输入空间的原像,运用SVM进行分类。对UCI数据集的测试结果表明,该算法能有效提高对高维不平衡数据集的分类性能。