论文部分内容阅读
新技术的蓬勃发展使我们每天都接触到海量的信息,如何从这些海量数据中获取对自己有用的信息,关键的环节就是模式识别技术。在模式识别系统中,由于获取的数据规模越来越大并且具有样本少、维数高等特点,如何从高维度原始数据中选择合适特征子集,避免“维数灾难”,同时不影响分类性能,使得特征选择算法面临更大的挑战。特征选择是模式识别系统中非常重要的一部分,也是设计一个性能优良分类器的前提和必要条件。本文通过研究国内外各种特征选择算法,在对有监督的特征选择算法中的评价测度、搜索方向和搜索策略等深入研究的基础上,提出了改进的特征选择算法。基于主成分分析(Principle Component Analysis, PCA)的多层Filter式特征选择算法,它将PCA特征提取运用于特征选择之前,能有效去除特征间冗余,克服了特征选择被用于依赖性较高的数据集时为了有效检测到冗余的高计算量问题。之后引入信息熵的理论,研究特征的最大相关最小冗余的非线性相关性。针对Filter特征选择效率高但是不能保证获得规模最小的特征子集的不足,本文提出分层Filter式特征选择,减少每层计算量,逐层降低特征维数,得到维数最低冗余度小的特征子集。基于信息相关性的嵌入式动态特征选择算法是在这样的基础上:信息相关的度量方法是建立在概率论的基础上的,预先要知道数据集上的概率分布情况;随着特征选择的不断进行,待选特征子集不断缩小,已选特征子集不断壮大,数据类别的不确定性越来越小,而信息熵计算不变,显然信息熵中包含部分“假信息”。通过改进特征选择中单个特征的评价函数,同时在特征选择算法中嵌入k近邻分类器,根据已选特征子集来得到可识别样本,将其从原样本中去除,重新计算信息熵来实现动态特征选择。