论文部分内容阅读
求解最小属性相对约简是一个NP问题,传统的属性约简算法存在着严重不足,引入群智能算法进行属性约简已经成为必然趋势,遗传算法在属性约简过程中采用不同的编码方法,会产生不同的问题,从而导致没有根据的积木假设,最终使得属性约简时GA过早成熟难以达到可行域最优。PSO约简过程中,微粒群在迭代时易集聚在局部值中,不易获得最好解,使得最后约简结果不是最小相对属性集。针对这些弱点,本文改进了传统的智能化方法,引进新的混合智能算法,把该混合方法进行粗糙集数据约简。新算法在提高部分寻优性能的同时又维持着全局寻优的特性,快速的获得最小相对属性集。 本文在课题的研究背景中,首先介绍了Rough set(粗糙集)理论中的基本知识包括属性重要性、支持度等,整体分析并比较传统的约简算法,如利用区分矩阵进行Rough set属性约简等。 其次给出了GA的构成要素及操作框架,并把遗传思想应用在Rough set属性约简中。同时也引入了另一智能化算法-PSO的思想,在Rough set属性约简中引进微粒群。并对智能约简算法的缺点给予改进。 接下来针对遗传约简算法过早收敛的劣势,给出了改进的遗传约简算法,重点从遗传算法的修复策略,二进制编码初始种群,适应值函数的设置等方面来优化。形成改进的遗传约简算法。针对PSO极易达到局部解的弱项,从它适应值函数着手优化创新,提出了改进的PSO约简算法。 最后在改进的粒子群约简算法的基础上,与遗传思想相融合,把遗传约简算法中的遗传操作加入到粒子群约简算法中。新算法通过CTR数据集与UCI库的三个数据集进行仿真验证。重点在Wine数据集与ZOO数据集的适应度变化曲线进行对比。GA-PSO约简算法与改进的GA约简算法、PSO约简算法相比,GA-PSO属性约简算法可以得到较小的相对属性集,验证了该算法的有效性。Wine数据集与Zoo数据集在约简过程中的适应度变化曲线表明,改进的GA约简算法最先收敛,但其约简的属性个数不是最少。改进的PSO属性约简与GA-PSO属性约简收敛的速度有较小差别,其中GA-PSO稍微快一些,其最小相对约简属性数相比,GA-PSO效果更佳,进而证明了该算法的高效性。