论文部分内容阅读
随着社会的进步和科技的快速发展,人们生活生产的众多领域产生了大量纷繁冗杂的数据。通过降低收集数据维度的方法达到消除冗余的数据的要求。常用到的降维方法有特征选择和特征提取。因特征选择没有改变原始特征的信息而被广泛应用在寻找最优特征子集领域。特征选择的基本方法有包裹式特征选择方法和过滤式特征选择方法。包裹式特征选择方法具有分类准确率高和时间复杂度高的特点。过滤式特征选择方法具有时间复杂度低的特点。一种特征选择方法无法满足人们逐渐提高的分类准确率要求,两种方法联合起来形成混合式特征选择方法提供了新的解决方案。混合式特征选择方法在应用过程中存在分类准确率待提高、数据高维、候选特征子集单一、相关性和冗余性比重相同四个问题。为解决混合式特征选择方法存在的以上问题,本文提出三个混合式特征选择算法,每个算法的具体内容如下。(1)针对问题一和问题四,采用嵌入式特征选择方法,提出最大斯皮尔曼最小协方差布谷鸟算法(MSMCCS)。在新算法中,过滤算法嵌入到包裹算法中。首先,基于斯皮尔曼和协方差,提出MSMC过滤算法。其次,在MSMC中引入三个参数,用来动态调节相关性和冗余性的权重,提高特征子集相关性并降低其冗余性。第三,修改布谷鸟优化算法中的位置更新策略,提高算法的收敛速度,根据权重结合策略选出候选特征子集,采用交叉变异思想调整候选特征子集。最后,过滤掉的特征有机会进入最优的特征子集,提高分类准确率。实验结果表明提出的算法有很快的收敛速度并且分类准确率明显好于其他10种算法。(2)针对微阵列数据的高维问题,采用并列式混合特征选择方法,提出k值最大相关最小相冗改进的灰狼优化算法(KMR2IGWO)。首先,根据最大相关最小相容算法在数据集中选择K个最优的基因。其次,通过随机方法和不同比重特征数量方法对K个基因组成的数据集初始化。最后,通过调整适应度函数的参数和更改位置更新策略,选择具有最优分类准确率和最短长度的基因组合。实验结果表明提出的算法在14个数据集上降维的效果非常明显,特征的数量降到原来的0.4%~0.04%。(3)针对问题三和问题四,提出一种阈值调节的并列式混合特征选择算法,称为最大皮尔森最大距离改进的鲸鱼优化算法(MPMDIWOA)。首先,基于皮尔森相关系数和相关距离,提出一种名为最大皮尔森最大距离(MPMD)的过滤算法。在MPMD中引入两个参数来调整相关性和冗余性的权重。其次,在鲸鱼优化算法中,使用投票法跳出局部最优。第三,提出备二弃一法的初始化方法。第四,提出最大值无变化次数(MVWC)和阈值的概念,通过调节阈值,过滤算法提供多个候选特征子集,包裹算法在众多候选特征子集中寻找到最优的分类准确率。实验结果说明在大部分数据集上MPMDIWOA算法的分类准确率高于其它算法。综上所述,本文以包裹式和过滤式特征选择方法为基础,以混合式特征选择方法为研究内容,围绕候选特征子集的产生和最优特征子集的挑选展开研究工作。