论文部分内容阅读
随着互联网、数据存储、计算机技术的飞速发展,各领域产生的待处理高维大规模数据急剧增加。特征选择作为一种有效的数据处理方式,成为机器学习、模式识别和数据挖掘等领域的一个热门研究课题,受到了广泛的关注和重视。特征选择通过去除不相关、冗余或噪声的特征属性,从数据的原始特征集合中选择一些使评价准则最优的特征以达到对特征空间降维的目的,进而降低数据存储和处理的成本。基于粗糙集的特征选择,即属性约简,是粗糙集理论的核心内容之一。其主要思想是在保留基本知识、同时保持决策系统分类能力不变的前提下,通过消除重复、冗余、不相关的属性,实现知识约简,导出所研究问题的决策或分类规则。研究表明,粗糙集属性约简在处理维度较低、数据量较小的数据集上性能优异,但对于海量大规模的、高维复杂的数据处理能力还不足。面对这些复杂度越来越高、计算量越来越大的数据,单一的利用数据挖掘算法的寻优能力或者高性能计算工具的计算能力已经无法满足数据处理的需求。研究学者们更多地考虑将优化算法和各类计算工具结合起来,希望得到更快更好的数据处理能力。果蝇优化算法是群智能优化算法中较新颖的一种,受到广大学者的关注和研究。相比其他群智能优化算法,果蝇优化算法具有操作更简单、需要设置和调整的参数更少、收敛速度更快等优点,但也依然存在过早收敛、易陷入局部最优的缺点。基于此本文提出一种新的改进的果蝇优化算法,并将该算法与粗糙集理论结合,应用于特征选择,同时基于Spark并行计算框架,进行基于改进的果蝇优化算法的并行特征选择方法研究。本论文的主要研究工作和创新性如下:1.针对标准果蝇优化算法因缺少跳出局部极值的手段以及缺乏有效快速的全局搜索能力导致的早熟收敛问题,提出一种新的双策略进化果蝇优化算法。该算法通过在迭代中将果蝇群体动态地划分为寻优结果优秀的精英子群和寻优结果较差的普通子群,对两个子群分别引入混沌变量和权重因子以改进果蝇搜索步长,更新群体位置,有效地提升了优秀个体的收敛速度、增加了劣势个体的多样性,并且精英子群和普通子群之间的信息交换,使得算法能跳出局部极值,有效地避免了算法陷入局部最和早熟收敛现象的发生。在基准函数上的仿真实验表明该算法具有良好的寻优效率和稳定性。2.提出了一种基于粗糙集与果蝇优化算法的特征选择方法。该方法基于上一章提出的新的双策略进化果蝇优化算法进行特征子集的迭代寻优,并结合粗糙集属性依赖度和属性重要性构造适应度函数对所选特征子集进行评估,既可以在全局范围内尽可能多地搜索出重要的特征,又能选出对决策最具有贡献的有效特征子集。在UCI数据集上的分组实验结果表明本文提出的特征选择方法可以有效地搜索出具有最少信息损失的特征子集,并达到较高的分类精度。3.利用Spark并行计算框架,提出了一种基于粗糙集和果蝇优化算法的并行特征选择方法。该方法利用Spark的基于内存计算和分布式的特点,将果蝇种群构造为弹性分布式数据集,由此计算相应的转换算子,最终实现果蝇搜索最优特征子集过程的并行化。在UCI公用数据集和人工生成的数据集上的实验结果说明了在大数据环境下本文提出的并行特征选择方法的可行性,较为适用于处理海量大规模数据。