论文部分内容阅读
随着生物信息学、图像处理、文本挖掘等大规模数据挖掘问题的不断涌现,数据挖掘的研究对象越来越复杂,对象的特征维数也越来越高。在现实生活及科学研究中产生了大量的高维小样本数据,如果直接利用这些高维小样本数据进行数据挖掘,容易出现维数灾难问题。通过特征选择,可以删除高维小样本数据中的冗余特征和噪声特征,从而降低学习算法的时间和空间复杂度,避免维数灾难。已有的特征选择方法主要侧重于特征选择结果的高分类性能或者聚类性能,而忽略了特征选择结果的稳定性。特征选择的稳定性问题对于高维小样本数据的数据挖掘与机器学习过程是非常重要的,不稳定的特征选择结果将带来很多歧义,难以获取可以理解的真实特征。本文以高维小样本数据的特征选择及其稳定性为研究对象,做了如下主要工作:1.通过大量地阅读特征选择及其稳定性的相关文献,系统地介绍了特征选择稳定性的概念、意义,详细地整理了已有的稳定性度量方法,对现有的稳定性特征选择方法进行整理研究,为后续的研究打下基础。2.提出了一种高维小样本数据的特征选择方法——基于随机森林的递归聚类消除特征选择方法RF-RCE. RF-RCE是在SVM-RCE以及ISVM-RCE的基础上提出的。RF-RCE在ISVM-RCE的框架上使用随机森林的特征重要性给特征评分,由于随机森林在处理高维小样本数据集上的优越性,使得RF-RCE在保持分类准确率和特征选择的稳定性的基础上,极大地提高了特征选择的时间效率,并且能够解决ISVM-RCE不能解决的超高维数据集。3.为了提高特征选择的稳定性,本文系统地整理并分析了特征选择不稳定的原因,并进行了大量的实验验证,此外本文引入了一种新的稳定性度量方法,该度量方法同时考虑了基于特征子集和特征排序的稳定性度量方法。在已有的稳定特征选择方法的研究基础上,本文提出了一种基于随机森林思想的稳定特征选择方法——随机集成特征选择方法REFS,通过在多个高维小样本数据集上进行实验,验证了所提方法的有效性。