论文部分内容阅读
随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战。爆炸式增长的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节。特征也是一种资源,本文受启发于自然界中生物获取食物资源的两种方式:1)通过争夺其他生物资源获取资源;2)通过搜寻获取资源来对特征选择算法进行研究。通过分析生物获取资源的方式对资源争夺行为和资源搜寻行为建立行为模型和行为关系模型,研究基于公平模型和基于追踪模型的特征选择算法。 研究生物通过争夺获取资源的行为建立动态交互模型、群内竞争模型和公平模型,提出基于公平模型的特征选择算法。本文在研究基于公平模型的特征选择算法过程中,将特征选择问题模型转换为资源分配问题模型,所选择的特征子集长度作为资源分配给所有的特征,在资源分配过程中加入资源争夺行为,通过提出的多群体公平算法对其进行评判和处理,以期得到更优的资源分配方案。在资源分配过程中利用待分配个体能力值(启发式信息)以及分配的随机性将启发式搜索和随机搜索两种策略有效融合在一起;在计算分配效益时,同一定量资源分配问题中,分配效益的计算使用filter方法(特征子集区分度评价准则);不同定量分配效益评价使用wrapper方法(分类器性能),在降低计算量的过程中能够得到分类性能更好的特征子集。 分析生物通过搜寻获取资源的行为,研究个体搜索资源的个性行为,引入蚊子追踪模型得到基于追踪模型的特征选择算法,在特征选择问题模型下建立个体目标追踪行为模型、整体追踪目标行为模型、目标吸引力模型和个体间交互行为模型。在个体不断接近追踪目标以及不断搜索更优追踪目标的过程中不断优化个体的权值向量(不断优化特征子集选择)。本文在不失一般性的分析下,参照函数极值问题存在的多种可能性对基于追踪模型的特征选择算法的有效性及可行性进行了分析。 本文提出了基于多群体公平模型的特征选择算法和基于追踪模型的特征选择算法,算法思路主要为:1)对待解决的问题进行描述并建立数学模型;2)给出算法的详细分析及解决问题的步骤;3)给出算法收敛性和有效性证明;4)通过在UCI数据集上测试提出的算法;5)与其他算法进行比较。理论证明和实验结果表明,本文提出的基于多群体公平模型的特征选择算法和基于追踪模型的特征选择算法是有效的,对于数据量呈爆炸性增长环境下的模式识别和数据挖掘等领域有一定的应用价值。