论文部分内容阅读
随着信息技术在各行各业的广泛应用,不同领域的数据呈现爆炸式增长。数据挖掘技术能够从海量数据中挖掘出新颖、有规律并且对决策有用的信息。特征选择是数据挖掘中非常重要的研究方向。作为一种应对“维度灾难”的有效方法,特征选择不仅能够降低数据挖掘算法的计算开销,而且还可以提高数据挖掘模型的性能。特征选择本质上是一个组合优化问题,因此,利用各类智能优化算法来解决特征选择问题已成为当前的研究热点。近年来,基于粒子群算法的特征选择方法和基于人工鱼群算法的特征选择方法引起了广泛关注。这些特征选择方法利用粒子或人工鱼寻优的随机性,能够在一个指定的范围中快速定位到最适合评价函数的解,可以在一定程度上解决特征选择效率不高的缺点。然而,传统的粒子群算法和人工鱼群算法在处理多维度的寻优问题时,还存在搜索精度不高、收敛速度较慢的缺点,此类缺点会降低特征选择的性能和效率。针对上述问题,本文将粗糙集理论与智能优化算法结合在一起来开展特征选择的研究。首先,为了解决粒子群算法搜索精度不高和收敛速度较慢的问题,本文将全局最优解和个体历史最优解相结合,提出一种混合最优解的概念,并采用动态惯性因子对现有的粒子群算法进行优化,由此提出一种改进的粒子群算法PSO_DIFHOS。其次,结合引力搜索算法中质量和加速度的概念,提出一种基于引力搜索的人工鱼群算法AFSA_GS,来改善人工鱼群算法后期收敛速度较慢的问题。最后,针对高维数据特征选择效率不高的问题,我们将粗糙集中的粒度决策熵作为算法PSO_DIFHOS和AFSA_GS的适应度函数,并由此构建出两种基于粒度决策熵和优化算法的特征选择方法:FS_GDEPSO和FS_GDEAFS。我们在多个UCI数据集上进行了实验,实验结果表明本文所提出的基于粒度决策熵和优化算法的特征选择方法,较好地解决高维数据上的特征选择问题。本文的主要研究工作和成果如下:(1)基于动态惯性因子与混合最优解的粒子群算法针对传统的粒子群算法搜索精度不高和收敛速度较慢的问题,本文提出一种基于动态惯性因子与混合最优解的粒子群算法PSO_DIFHOS。相对于传统的粒子群算法,PSO_DIFHOS算法进行了如下改进:首先,在惯性因子方面的改进,提出一种能够针对适应度函数动态变化的惯性因子。采用动态惯性因子能够使得粒子在前期的搜索范围更大,而在后期接近最优解时降低其移动速度,从而更有利于最优解的查找;其次,在最优解方面进行了改进,将算法中的全局最优解与个体历史最优解相结合,从而提出一种混合最优解。混合最优解不仅能够有效减少算法的参数设置,而且还能够兼顾粒子群算法的全局与个体特性。(2)基于粒度决策熵与改进粒子群算法的特征选择方法在(1)中所提出的PSO_DIFHOS算法的基础上,本文进一步提出一种基于粒度决策熵与改进粒子群算法的特征选择方法FS_GDEPSO。主要思路如下:首先,采用Sigmoid函数对粒子的位置进行编码;其次,将粒度决策熵作为粒子群算法的适应度函数,基于粒度决策熵计算每个粒子的适应度;最后,通过(1)中所提出的粒子群算法PSO_DIFHOS进行寻优,从所有候选的特征子集中快速寻找到最优的特征子集。我们在UCI数据集上进行了相关实验。实验结果表明,FS_GDEPSO方法的特征选择性能要优于基于传统粒子群算法的特征选择方法以及其他一些具有代表性的特征选择方法。(3)基于引力搜索的改进人工鱼群算法针对传统的人工鱼群算法前期收敛速度快后期收敛速度慢的缺点,本文利用引力搜索算法对传统人工鱼群算法的视野和步长进行改进,从而提出一种基于引力搜索的改进人工鱼群算法AFSA_GS。在此算法中,我们采用了如下两种改进策略:基于引力搜索的自适应感知范围和基于引力搜索的自适应移动步长。首先,使用引力搜索中计算质量的方法对人工鱼群算法的视野进行自适应加权;其次,使用引力搜索中计算加速度的方式对人工鱼群算法的步长进行更新。通过在AFSA_GS算法中引入上述两种改进策略,能够解决传统人工鱼群算法后期收敛速度过慢的问题。(4)基于粒度决策熵与改进人工鱼群算法的特征选择方法在(3)中所提出的AFSA_GS算法的基础上,本文进一步提出一种基于粒度决策熵与改进人工鱼群算法的特征选择方法FS_GDEAFS。主要思路如下:首先,采用Sigmoid函数对人工鱼的状态进行编码;其次,将粒度决策熵作为人工鱼群算法的适应度函数,基于粒度决策熵计算每条人工鱼的适应度;最后,通过(3)中所提出的人工鱼群算法AFSA_GS进行寻优,从所有候选的特征子集中快速寻找到最优的特征子集。我们在UCI数据集上进行了相关实验。实验结果表明,FS_GDEAFS方法的特征选择性能要优于(2)中所提出的特征选择方法FS_GDEPSO以及其他一些具有代表性的基于优化算法的特征选择方法。