基于灰狼乌鸦结合算法的特征选择方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:tlljs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是根据特征的相关性,冗余性等因素对数据集进行维度约简的过程,目前已在机器学习、数据挖掘和模式识别等众多领域的分类任务中得到了广泛的应用,是对相关领域数据进行预处理,进而提升算法性能的重要手段。在特征选择任务中,应在保证较高分类准确率的前提下,尽最大限度地降低所选择的特征数量,以达到降维的目的。近年来,元启发式算法因其在处理复杂现实问题方面的高效性受到了学者们的广泛关注。与此同时,许多元启发式算法作为包裹式方法被用于解决特征选择问题,灰狼乌鸦结合算法(hybrid Grey Wolf Optimizer and Crow Search Algorithm,GWOCSA)即为其中的一种。该算法集成了乌鸦搜索算法优秀的全局搜索能力与灰狼优化算法优秀的局部搜索能力,在二者之间实现了较为合适的平衡,具有很强的通用性。尽管如此,该算法仍存在一些不足之处。首先,GWOCSA在对种群进行初始化时,采用了完全随机的方式,这不仅不利于提升探索的广度,而且在一些较坏的情况下,如最优解为生成解的相反解时,对其探索将十分漫长。其次,GWOCSA在更新阶段只根据最优解和次优解来对每个搜索代理的位置进行更新,这不仅无法在全局搜索阶段保证种群的多样性,而且又容易在局部搜索阶段陷入局部最优解。再次,GWOCSA未对得到的解进行进一步优化,从而降低了整个种群接近最优解决方案的速度。最后,在移动策略与收敛策略上,GWOCSA未对全局搜索与局部搜索进行有效的平衡。针对以上不足,本文首先采用混沌映射与反向学习策略相结合的方式对种群进行初始化,拓宽了搜索的广度,提高了初始种群的多样性。其次,在更新阶段提出了新的全局搜索策略和新的局部搜索策略,其中引入了新的层级与随机搜索代理,有助于对搜索空间进行更宽泛地探索并跳出局部最优解。随后,采用与差分进化算法相结合的方式,利用其变异、交叉和选择操作提高种群的质量。接着,用新提出的FIMO(Further Improve and Optimize)策略对最优解和最差解进行进一步优化。此外,还对移动策略与收敛策略进行了改进,使全局搜索与局部搜索达到了更有效的平衡。最后,采用新的传递函数对得到的连续解进行二元化,以用于解决特征选择问题。本文将改进后的算法记为BIGWOCSA(Binary Improved hybrid Grey Wolf Optimizer and Crow Search Algorithm),实验阶段共在20个UCI数据集上对其性能进行了测试,并与近年来提出的11个基于元启发式的特征选择算法在平均适应度值、平均分类准确率和平均所选特征数量上进行了比较。结果表明,BIGWOCSA在平均适应度值和平均分类准确率上具有明显的优势,在平均所选特征数量上也具有很强的竞争力。此外,Wilcoxon检验的结果表明BIGWOCSA与其他特征选择算法的结果具有统计学上的差异。
其他文献
剂量反应Meta分析(dose-response Meta-analysis,DRMA)是基于多项提供剂量反应关系数据的原始研究,对其剂量反应结果进行定量合并后得出综合剂量反应直线或曲线的一类Meta分析,广泛应用于循证证据产生及临床决策等方面。目前已发表DRMA结果的可靠性和文章质量水平不一,而且国际上暂无DRMA的统一报告规范。本研究系统梳理了DRMA的本质、各步骤统计方法及常见统计分析问题,
期刊
随着信息时代的到来,数据的表现形式越来越多样化,推理一种现象发生的可行性不能仅依靠信息拥有者有限的知识水平,需要综合考量各方面的因素,例如判断一个人消费意愿需,不能仅根据他的购买记录,要同时考虑他的购买能力,而这两种数据多数情况下并不会隶属于同一机构。上述情景便涉及到多机构联合学习的问题,传统的方式是将数据集中起来进行机器学习模型的构建。然而,然而随着国家对隐私保护的逐渐重视,以及隐私保护法律的逐
学位
关于因果关系的研究由来已久,但目前自然语言处理领域的因果关系抽取研究仍是一个新兴领域。最初因果关系抽取仅为关系抽取任务中的其中一种,但随着因果关系抽取任务的重要性逐渐显现,目前已有越来越多的研究致力于单一的因果关系抽取任务。作为一个比较新的研究方向,在因果关系抽取任务中,数据集过小是我们在研究中常常遇到的问题,其解决方式一般是使用元学习或数据增强方法。目前的数据增强方法大多数采用一套基于规则的处理
学位
语义分割是计算机视觉领域中的一个重要方向。随着医学图像分析、汽车的自动驾驶等领域的发展,语义分割任务变得越来越重要。语义分割结果的精确度越高,对于下游任务的效果越好。由于语义分割需要像素级别的图像标注,这会为数据集的准备工作带来巨大的工作量,会损耗大量的时间,因此很难对规模巨大的数据集进行人工标注。本文在已有算法的基础上提出了一种基于半监督学习的混合伪标签语义分割算法,使用半监督学习来解决像素级别
学位
医学影像产业是我国医疗器械领域中最大的细分领域。近些年来,随着人工智能技术和医学影像技术的迅速发展和大幅度进步,医学影像已经成为了临床疾病诊断、疾病治疗以及现代医学研究中一个必不可少的技术手段。在医学影像辅助诊断领域中,医生或研究人员在对内部组织器官进行定性和定量分析、病情实时监控以及未来治疗规划时,为了能够做出尽可能正确的治疗决策,通常需要了解这种组织器官的一些详细信息,因此生物医学影像已成为疾
学位
医学图像分割是医学领域中非常基础且重要的任务,有助于辅助诊断和临床研究。随着深度学习的蓬勃发展,卷积神经网络(Convolutional Neural Network,CNN)方法在生物医学图像分割领域表现十分优异。但是深度学习在处理医学图像任务时主要存在两方面问题:1)医学图像数据处理困难,医学图像的模态多样化,经常存在伪影、噪声等,且不同于自然图像,医学图像获取困难,导致数据量较小。2)卷积神
学位
对于真核细胞来说,生物过程都是由不同层次的复杂生物机制调控的。DNA序列既是承载着生物信息的基石,也是传递信息的桥梁,其包括了生化过程中所需的信号。基因必须经过转录和翻译生化处理阶段,才能实现其特定的功能。基于此,识别基因组信号和区域(genomic signals and regions,GSR)对于理解基因组组织、基因调控和基因功能非常重要。与本研究有关的两种GSRs为多腺苷酸化信号(poly
学位
由于互联网应用中的高维多标签数据的骤增,造成单标签特征选择算法无法满足人们日常生活和科学研究的需求。传统多标签数据集的处理是将多标签数据转换成单标签数据,然后直接使用单标签特征选择算法进行特征选择。但是这种方案忽视了标签空间中各个标签之间相关程度。算法适应性方法作为另一种多标签数据处理方案,通过优化传统单标签特征选择算法直接使用多标签数据集,解决了该问题。基于算法适应性方法的多标签特征选择算法从原
学位
<正>目的为了保证骨科住院患者的安全,降低住院患者跌倒发生率,探讨骨科患者发生跌倒的原因和护理对策。骨科患者伤后或手术后肢体活动受限.存在不同程度的功能障碍。易发生跌倒事件,跌倒使患者受伤,延长住院时间,增加医疗成本。近年来,国内医院患者在住院期间跌倒导致的医疗争议事件时有发生,医院内跌倒不仅对住院病人造成二次伤害,在医患关系日益紧张的今天,也备受社会各界的广泛关注。
会议
<正>假期,我到姨妈家小住了几天。一早,表妹写了一会儿作业,就下楼看电视了。她窝在沙发上,一边吃着零食,一边看得乐不可支。正看得着迷,姨妈过去“啪”的一声,把电视给关掉了。“干吗关了啊?”表妹不满地嘟囔着。“干吗?你都看多长时间了?”姨妈一手叉着腰,一手指着表妹数落起来,“这大热天的,
期刊