论文部分内容阅读
图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。本文在高维数据的特征选择以及基于特征选择的集成学习上开展了研究。主要工作包括以下方面:一、设计了两种串联型组合式特征选择算法。针对Relief评估不能去除冗余特征的缺点,设计了两种串联型组合式特征选择算法:一种为Filter-Filter模式,另一种为Filter-Wrapper模式。在人工数据集上的实验表明,Filter-Filter模式的组合式算法可以有效的克服Relief不能去除冗余特征的缺点,去掉全部或者近似全部的冗余特征,且运行效率高于Filter-Wrapper模式的组合算法;在人工数据集和实际数据集上的实验表明,Filter-Wrapper模式的组合式算法取得了明显高于Filter-Filter模式的测试准确率。二、基于Relief和遗传算法各自的优缺点,提出了Relief和遗传算法耦合的组合式特征选择算法。算法采用 Relief 指导遗传算法种群初始化,目的是提高遗传算法搜索近似最优解的速度,以便在较短时间内寻找到近似最优解。在17个维数较高的数据集上的实验结果表明,从分类准确率,特征子集大小以及运行时间等多角度考察,该算法具有良好的综合性能。三、从个体分类器准确率和个体分类器间差异度两方面出发,提出了一种适于高维数据的基于两步式特征选择的集成学习算法ReFeatEn。实验表明,在特征维数较高,特征间关系较复杂的数据集上,ReFeatEn算法的测试准确率始终优于或相当于Bagging、Boosting和基于随机特征选择的集成学习算法RandFeatEn,并且ReFeatEn的运行速度远高于Bagging和Boosting算法,而且适于并行运行,是一种适用于高维数据的基于特征选择的集成学习算法。四、提出了将特征选择嵌入到Boosting算法中的思路,并设计了总体算法框架,据此分别针对朴素贝叶斯分类器和最近邻中心分类器设计了相应的集成学习算法,解决了Boosting算法对噪声特征较敏感的缺陷,得到的测试准确率显著高于对应的Boosting算法,是一种鲁棒性很强且具有推广性的集成学习算法。