论文部分内容阅读
随着科学技术进步和发展,使得各行各业产生了大量数据,人类进入了大数据时代。大量数据的产生对我们来说既是机遇也是挑战。因此,急需我们从大量数据中发现有用的信息来促进生产力的发展。数据挖掘技术就是在这基础上发展而来的。数据挖掘是一门交叉学科,它融合了模式识别,机器学习,统计学习,人工智能等技术。通过分析数据中的有用信息,吸取精华,去其糟粕,挖掘出数据中潜在知识。目前,数据挖掘技术广泛应用到基因组学、蛋白组学、代谢组学等各个领域。分类和特征选择技术都是数据挖掘中常用的基本技术,在知识的发现和信息的提取中起到了重要作用。由于不同的分类器模型能够从数据中挖掘出不同的信息,利用多种分类模型建造融合分类器中的基分类器,充分利用各个分类器之间的互补性,增强了融合分类器中基分类器的强度和基分类器之间的多样性。因此,本文中提出了一个基于多种分类模型的融合分类器。该融合分类器由多个融合基分类器构成,每个融合基分类器利用三种不同的分类器(决策树、kNN,SVM)通过加权融合而成。在公共数据集上的实验结果表明,与其它融合分类技术和单分类器相比,本文中提出的方法在一定程度上提高了分类的准确率。高维小样本数据往往导致数据挖掘过程中建造模型的时间增加,性能反而降低。特征选择技术目的就是从高维数据中选择出有用的特征,提高模型的性能。SVM-RFE是一种常用的特征选择技术,它通过迭代删除SVM模型建造过程中权重最低的特征,有效删除噪音特征和冗余特征。样本分布情况能够影响SVM模型中超平面的建立,从而影响特征选择结果。在此基础之上,本文中利用类重叠技术,计算每个样本的重叠程度,在SVM-RFE中利用重叠程度低于我们预先设定阀值的样本去建造SVM模型,更好的计算特征权重。实验过程中,文中给出分类准确率比较结果和特征分析结果。实验结果表明本文提出的方法一定程度上改进了SVM-RFE特征选择性能。本文首先提出了基于多种分类器方法的融合分类器,利用不同分类器之间的互补性提高了分类准确率。其次,利用类重叠技术研究样本的分布情况,提出了一种改进的SVM-RFE特征选择方法,改善了特征选择的性能。