论文部分内容阅读
利用计算机技术对数据进行采集和处理是IT技术一个极为重要的应用。在数据采集过程中会遇到很多高维的数据信息,信息中包含着大量特征。这些高维数据造成了数据挖掘过程中的“维灾难”问题。因此,分析和研究对高维数据集进行有效信息挖掘的算法显得十分重要。针对高维数据挖掘的需要,本文先简单地讨论了高维数据分类和现有数据挖掘算法的研究热点、研究现状及相关理论和方法,在这基础上开展了进一步研究。研究工作主要有:(1)讨论了现有数据挖掘算法在高维数据集上进行数据挖掘的不足及自适应维归约算法的重要性。首先,给出了高维数据分类存在的问题和研究热点并具体说明了降维在高维数据挖掘过程中的重要性。其次,介绍了现有支持向量机(SVM)分类算法和K均值相关算法在高维数据集应用上的不足,为后续算法的改进打下了较好的基础。(2)设计了一种针对高维数据集的有效的多分类二阶段数据挖掘方法。该方法首先利用二分K均值算法对高维数据集进行粗聚类,然后再利用SVM决策树算法对粗聚类之后的结果进行细分,即可实现对高维数据进行多分类的目的。该方法既有效地减少了高维数据在进行多分类时的训练时间,而且实验结果证明该方法比单纯使用K均值聚类算法或SVM算法的分类准确率有所提高并且也降低了时间复杂度。(3)对现有的知识发现过程进行有效分析,将数据预处理与数据挖掘实现内部循环,从而得到较优的挖掘结果。本文利用支持向量机决策树算法(SVMDT)来实现数据挖掘预处理步骤中的数据降维。针对高维数据集的多分类问题,提出了一种结合二分K均值聚类和SVMDT算法的自适应分类方法(BKM-SVMDT方法)。在BKM-SVMDT方法中,首先利用PCA将原始数据集从高维空间变换到低维空间上,然后在得到的低维空间上执行二分K均值算法来得到样本的类信息,再利用高低维之间的指示矩阵H生成高维数据的类信息,指导SVMDT算法进行分类,再得到低维数据集和新的指示矩阵H,从而可在得到的新的低维数据空间上进行二分K均值聚类算法,这个过程反复执行下去,直到达到相应收敛结果。该方法既较好地避免了维灾难问题,又能自适应地得到某种形式的收敛结果。与NLSVM算法和SVM决策树算法的对比实验也证明了BKM-SVMDT方法的有效性。