论文部分内容阅读
特征选择已经成为数据挖掘、机器学习、模式识别等领域的研究热点。特征选择用更稳定的特征集合以适当的精度表示原始特征集合。特征选择的研究主要集中在两个方面,一是搜索特征子集时所需要的搜索策略,二是特征子集的性能评价方面。因此,研究更为有效的特征选择算法,有效地获取较优的特征子集,降低算法的时间复杂度和寻求快速的特征选择算法仍然是特征选择研究的重点。本文根据基于粗糙集的特征选择和基于蚁群优化方法的特征选择算法两种方法所具有的优势和存在的不足,提出一种将粗糙集方法和蚁群优化方法相结合的特征选择算法。其主要工作包括以下几个方面:首先,简要介绍了粗糙集理论和蚁群优化算法的相关知识,包括信息表达系统,上近似和下近似,属性约简与核,属性依赖度和重要度等概念和对蚁群算法的理论知识的总结概述。其次,对特征选择算法的进行了概要性分析。着重对基于粗糙集属性重要度的特征选择算法(贪婪法)和基于蚁群优化方法的特征选择算法进行了深入研究。再次,在分析基于粗糙集的特征选择方法和基于蚁群优化方法的特征选择算法所具有的优势和存在不足的基础上,本文提出了一种基于粗糙集蚁群优化方法的特征选择算法。所提出的算法通过引入粗糙集相对核属性作为特征选择的起点,以便提高算法的准确性;在转移规则和信息素更新策略中,引入了粗糙集属性依赖度和属性重要度,用于指导蚂蚁的搜索过程,以便提高算法的性能;此外,将粗糙集理论的分类精度和特征子集长度两个参数应用于评价函数中,以衡量特征子集的优劣;通过选择不同数据个数和属性个数的数据集对所提出的方法进行了测试,同时与基于粗糙集的特征选择方法和基于蚁群优化方法的特征选择算法进行了比较实验。测试与比较实验结果表明,所提出的方法可行的,并且对具有核属性的数据集在特征子集长度和精度两个指标上具有明显优势。最后,对论文的研究工作进行了总结,并提出了下一步的工作展望。