论文部分内容阅读
属性选择问题旨在不丢失数据原有价值的前提下,剔除数据中的冗余噪声信息,从而提高数据处理的效率和准确率,在数据预处理环节中占据至关重要的地位。属性选择问题主要包含四个主要方面:子集评估度量准则、采用搜索策略控制新属性子集的产生、验证核属性是否基本包含原始数据集的信息,以及停止条件,其中子集评估度量准则和搜索策略是两个关键的问题。在属性选择问题中,任一属性均有两种状态,被“选择为关键属性”(用“1”表示)或“不被选择为关键属性”(用“0”表示)。鉴于此特点,本文从一维二值细胞自动机模型入手,以二元蚁群优化算法(Binary Ant Colony Optimization,BACO)为搜索策略,分形维数(Fractal Dimension,. FD)作为子集评估度量准则应用于求解属性选择问题。因BACO算法属于生物启发式算法,存在“种群多样性缺失”、“算法前期信息素匮乏需要较长搜索时间”以及“单次只能求解一个任务”等诸多缺陷,本文对其作了一系列改进,并结合FD应用于属性选择问题中。本文的主要研究工作和成果总结如下:(1)将自然界中生物的生命周期(出生、觅食、繁殖、迁徙、死亡)的思想引入到BACO中,通过对蚂蚁设置营养阈值的上下限来执行繁殖、迁徙和死亡操作,从而扩大蚂蚁对解空间的搜索范围,提高种群的动态多样性,提出基于生命周期的二元蚁群算法(Lifecycle-based Binary Ant Colony Optimization,LCBBACO),然后结合FD应用于属性选择问题中。通过对UCI中的6个数据集进行测试,结果表明该方法具有较好的可行性和有效性。(2)因BACO在初始时刻采用信息素均匀分布方式,且不设置启发式信息,这必将导致算法在前期需要较长一段时间才能形成一条信息素落差明显的路径,影响整个算法的运行时间。将二元粒子群算法(Binary Particle Swarm Optimization,BPSO)的快速有效性引入到BACO中,通过最优粒子迭代矩阵或模糊函数映射机制等方法快速产生初始解,提出带粒子优化特征的二元蚁群算法(Binary Ant Colony Optimization with Particle Optimization Feature,PBACO),然后结合 FD 求解属性选择问题。仿真实验表明,该方法不仅能有效解决属性选择问题,还可以较大程度地减少算法的评价次数,降低算法的平均运行时间。(3)现有的BACO算法单次只能求解一个任务,大大降低了算法求解问题的效率。针对BACO算法所具有的“隐”并行性,将自然界中基于合作的协同进化机制引入到BACO中,在同一搜索空间根据任务个数设置相应数目的子种群,各子种群之间相互协作相互传递有效信息,从而同时加速各任务的收敛速度及提高解的质量,提出协同进化的二元蚁群算法(Coevolutionary Binary Ant Colony Optimization,CBACO),然后结合FD同时求解多个不同的属性选择问题。仿真实验表明在多任务环境中有效信息的传递确实能加速各任务的收敛速度及提高解的质量。(4)雾霾天气已严重地影响到人们的日常生活,有效预测雾霾在现实生活中具有十分重要的意义。原始雾霾数据因包含众多冗余因素而造成“维数灾难”,进而造成资源浪费,影响预测的效率。有效剔除雾霾数据中的噪声属性,为雾霾预测提供精简有效数据显得尤为必要。原始雾霾数据的任一属性同样也具有“0/1”特性,本质上也属于属性选择问题。因第五章CBACO算法结合FD能在同一时间内有效解决多个属性选择问题,故将上述算法应用于我国两大主要城市北京和上海雾霾数据的约简中,然后将约简后的数据结合SVM算法预测两地雾霾天气。通过与其它算法进行对比,结果表明该算法预测结果具有较高的可信度,为现实生活有效预测雾霾提供重要的参考依据。