论文部分内容阅读
随着计算机应用范围和领域的日益扩大,特别是Internet 的飞速发展,在各种应用系统和Internet 上积累了大量、甚至海量数据,产生了“数据爆炸、知识贫乏”的现象;数据挖掘是解决这种问题的最为有效的手段,但是要有效地利用数据挖掘,对数据进行预处理是必不可少的,而特征选择是数据预处理中一种重要而且经常采用的方法。此外,在机器学习和模式识别中,特征选择也是一个必要的步骤。特征选择的研究开始于上个世纪的六十年代,已经有几十年的历史,取得了许多成果,但随着新的应用领域和新对象不断涌现,使得特征选择还有许多问题亟待解决。本论文对此作了详细介绍,并对目前特征选择的研究热点和问题进行了深入的研究,取得了一定的成果。作者把特征选择的研究分为三个阶段,首先介绍了常规的特征选择算法模型,并分别从研究人员和用户角度,对特征选择算法进行分类,这将大大方便用户选择合适的特征选择算法,有助于特征选择算法的应用,也为特征选择算法的进一步研究打下坚实的基础。其次,提出或者介绍了一些具体的特征选择算法,也是当前的一些研究重点和热点,包括在模糊特征空间进行特征选择的算法、监督的高维特征选择算法、非监督的高维特征选择算法和小样本训练的特征选择算法。其中,对于模糊特征空间的特征选择,主要是利用扩张矩阵作为搜索策略,类间的模糊相似性作为评价准则,理论和实验都表明该算法具有较好的性能和低的时间开销。该算法属于一种专业算法,充分考虑特征的模糊性,可以应用到模糊分类器的设计中。而在监督的高维特征选择中,由于现实的高维数据集中往往存在大量的冗余特征和不相关特征,因此作者提出了一种基于特征关联性的分层过滤器方法,有效地消除冗余特征和不相关特征,实验表明该算法能有效地降低特征维数。同时将该方法与部分基于关联性的方法进行了比较分析,并全面系统地回顾了所有基于特征关联性的高维特征选择算法以及关联性的定义和计算公式,大大有助于以后的研究。在非监督特征选择的研究中,作者提出一种新的基于特征排序和分层的过滤器算法,排序规则采用的是指数熵,而评价准则采用了模糊特征评价指标,该算法克服了其它一些非监督特征选择算法的缺点,可以同时剔除冗余特征和不相关特征,能有效处理高维数据和噪声数据,且计算的开销较小。前面提出的三种算法都是建立在训练样本较充分的基础之上,但当可获取的训练样本相对于特征维数偏少时,如何有效地进行特征选择?作者详细介绍了一类基于支持向量机的特征选择