面向结构化数据的启发式混合特征选择方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:toofar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和科技的快速发展,人们生活生产的众多领域产生了大量纷繁冗杂的数据。通过降低收集数据维度的方法达到消除冗余的数据的要求。常用到的降维方法有特征选择和特征提取。因特征选择没有改变原始特征的信息而被广泛应用在寻找最优特征子集领域。特征选择的基本方法有包裹式特征选择方法和过滤式特征选择方法。包裹式特征选择方法具有分类准确率高和时间复杂度高的特点。过滤式特征选择方法具有时间复杂度低的特点。一种特征选择方法无法满足人们逐渐提高的分类准确率要求,两种方法联合起来形成混合式特征选择方法提供了新的解决方案。混合式特征选择方法在应用过程中存在分类准确率待提高、数据高维、候选特征子集单一、相关性和冗余性比重相同四个问题。为解决混合式特征选择方法存在的以上问题,本文提出三个混合式特征选择算法,每个算法的具体内容如下。(1)针对问题一和问题四,采用嵌入式特征选择方法,提出最大斯皮尔曼最小协方差布谷鸟算法(MSMCCS)。在新算法中,过滤算法嵌入到包裹算法中。首先,基于斯皮尔曼和协方差,提出MSMC过滤算法。其次,在MSMC中引入三个参数,用来动态调节相关性和冗余性的权重,提高特征子集相关性并降低其冗余性。第三,修改布谷鸟优化算法中的位置更新策略,提高算法的收敛速度,根据权重结合策略选出候选特征子集,采用交叉变异思想调整候选特征子集。最后,过滤掉的特征有机会进入最优的特征子集,提高分类准确率。实验结果表明提出的算法有很快的收敛速度并且分类准确率明显好于其他10种算法。(2)针对微阵列数据的高维问题,采用并列式混合特征选择方法,提出k值最大相关最小相冗改进的灰狼优化算法(KMR2IGWO)。首先,根据最大相关最小相容算法在数据集中选择K个最优的基因。其次,通过随机方法和不同比重特征数量方法对K个基因组成的数据集初始化。最后,通过调整适应度函数的参数和更改位置更新策略,选择具有最优分类准确率和最短长度的基因组合。实验结果表明提出的算法在14个数据集上降维的效果非常明显,特征的数量降到原来的0.4%~0.04%。(3)针对问题三和问题四,提出一种阈值调节的并列式混合特征选择算法,称为最大皮尔森最大距离改进的鲸鱼优化算法(MPMDIWOA)。首先,基于皮尔森相关系数和相关距离,提出一种名为最大皮尔森最大距离(MPMD)的过滤算法。在MPMD中引入两个参数来调整相关性和冗余性的权重。其次,在鲸鱼优化算法中,使用投票法跳出局部最优。第三,提出备二弃一法的初始化方法。第四,提出最大值无变化次数(MVWC)和阈值的概念,通过调节阈值,过滤算法提供多个候选特征子集,包裹算法在众多候选特征子集中寻找到最优的分类准确率。实验结果说明在大部分数据集上MPMDIWOA算法的分类准确率高于其它算法。综上所述,本文以包裹式和过滤式特征选择方法为基础,以混合式特征选择方法为研究内容,围绕候选特征子集的产生和最优特征子集的挑选展开研究工作。
其他文献
针对高速公路车辆超载问题特征,分析了高速公路超载检测系统的功能需求,提出以动态预检测为手段以提高检测效率、减少滞留车辆延误时间。从用户需求角度设计了动态检测系统的
通过对Black-Sholes(B-S)模型和Monte Carlo方法的比较分析研究,文章回答了如下问题:在Black-Sholes模型的价格随机过程下的Black-Sholes公式和Monte Carlo定价方法的区别,风
在课堂教学中我们常常会发现,新手型教师虽然接受过一定的培训,但是其教学效果各不相同,且问题频出。而在国际汉语教学界中,新手型教师们要面临的问题则比国内的要更为复杂。我们说发现问题,才能解决问题,因此本文将以海外孔子学院本部和教学点的新手汉语教师为研究对象,以课堂中发生的言语类互动行为作为研究重点,希望能发现他们各自在课堂教学中存在的问题,从而为其未来的发展提供有效建议。为了让研究成果更加的科学和量
结合实际工作经验,介绍了公路路面接缝的种类及作用,总结归纳了纵向接缝、胀缝、横向施工缝等不同接缝的监理要点,并阐述了切缝的监理要求和灌缝的技术要求,以指导监理人员严
幸福是人类追求的终极目标,也是一个永恒的伦理话题,人类对幸福的自觉追求是推动社会历史进步的动力之一。中国当前社会正处在空前的转型时期,当代大学生幸福感的缺失在相当
对文山壮族苗族自治州小学体育教学现状进行了调查研究.结果表明,文山地区小学体育师资学历、职称偏低,教龄偏短;体育场地和器材严重不足;体育课开展基本正常,两操开展情况良
通过对桥梁爆破拆除工程实践的分类总结,简要介绍了国内桥梁爆破拆除中的要点及其达到的爆破效果及国外桥梁爆破拆除理论和数值模拟的状况。重点介绍了运用数值模拟软件ANSYS
针对高层建筑墙面抹灰空鼓裂缝问题,从填充墙开裂和抹灰层开裂两方面分析了造成抹灰空鼓裂缝的原因,提出了具体施工质量控制措施和加强质量监管措施,以使墙面抹灰空鼓裂缝问
本研究通过对福建省的各类单位进行抽样调查,得出当前会计人员心理压力状况较严重,对会计人员进行心理优化势在必行。我们从能力、品格、倾向性、心理活动方式四个方面阐释了
<正>现代外科微创手术迅猛发展,越来越多的开放手术已逐渐被腔道手术所取代,而在工作中发现手术医生在为病人实施手术时,一般是左手扶镜,右手操作。随着手术时间的延长,手术