面向大规模数据的集成粒子群特征选择算法

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:wangrong2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于进化优化的特征选择,简称进化特征选择,是一种有效的数据降维方法。该方法能够通过全局搜索策略找到较优的特征子集,目前已经成为解决特征选择问题的热门技术。然而,随着信息技术的快速发展,数据的规模呈现指数式的增长,样本规模大、特征维数高的数据越来越普遍,而且很多数据还具有类不均衡的特性。现有进化特性选择方法仍然存在执行代价大和易于局部收敛等不足。鉴于此,本文针对大规模高维数据,结合进化优化算法的全局搜索能力和过滤式特征选择算法的快速搜索能力,提出了两种基于粒子群优化的特征选择算法。论文主要工作有以下两个方面:(1)针对传统的大规模高维数据,提出一种多代理辅助的两阶段集成特征选择算法。第一阶段利用过滤式集成方法删除不相关特征或者相关程度较小的冗余特征,第二阶段使用基于粒子群优化的封装式集成方法从剩余特征中选出最优的特征子集。进一步,为减少算法处理大规模数据的代价,利用多种类型的代表样本集合替代整个原始数据集,给出种群的多个代理模型辅助搜索机制。最后,将算法应用在多个数据集,并通过使用多个具有代表性的算法进行了对比,结果显示,该方法能够在较短运行时间内获得具有高分类精度的特征子集,是一种鲁棒性好且竞争力强的特征选择算法。(2)针对具体类不均衡特性的大规模数据集,提出一种代理辅助的多阶段集成粒子群特征选择算法。第一阶段使用一种过滤式集成特征选择方法快速删除不相关或弱相关特征,第二阶段利用一种代理辅助的粒子群特征选择方法删除冗余特征,第三阶段采用一种局部精英搜索策略修正第二阶段得到的特征子集。进一步,为减少第二阶段中粒子群特征选择方法的执行代价、避免类不均衡性带来的分类误差,提出一种基于K近邻的代表样本选择策略,对大类和小类分别构建其代表样本集。最后,将提出的多阶段集成特征选择算法用于9个不均衡数据集,并将其与多种特征选择算法进行对比,实验结果表明,所提算法可以在减少计算时间的基础上得到分类精度好的特征子集,能够有效处理数据集存在的类不均衡现象。本文共包含图6幅,表24个,参考文献125篇。
其他文献
经过生物处理后的焦化废水尾水依旧难以达到焦化废水行业排放标准,为响应国家环境保护标准“十四五”发展规划,焦化废水尾水的深度处理已迫在眉睫。在处理焦化废水尾水领域中,非均相催化臭氧化技术已逐渐成为研究热点。本研究通过Fe2+、Ce3+掺杂的方式对α-MnO2进行改性,制备了MnMxOy催化剂,开展了MnMxOy催化剂催化臭氧化焦化废水尾水特征有机物喹啉的研究。通过对比分析金属离子掺杂前后催化剂的催化
学位
作为典型的煤基固废,气化灰渣是煤化工产业的排放物,而过高的惰性残炭量限制其综合利用进程,因此需要进行废渣脱炭处理。摩擦电选技术作为一种高效分离细微颗粒物方法,其在气化灰渣分离应用中因具有鲜明的技术优势而获得广泛地关注。在电选法,较高的颗粒荷电量是颗粒分选的前提及必要条件。对于传统的荷电器,因气化灰渣颗粒较小,摩擦器内摩擦棒位置固定,导致棒与颗粒碰撞接触时间较短而无法实现气化灰渣颗粒高效荷电,这将极
学位
内置式永磁同步电机(Interior Permanent Magnet Synchronous Motor,IPMSM)具有结构简单、易于控制、高功率密度、较宽调速范围以及动态响应较快等优点,使其广泛应用于各行各业。为了实现永磁同步电机精密控制,必须配备机械传感器,而安装机械传感器使得系统成本、复杂度提高且使用环境受限等缺点。通过采用无传感器控制技术克服了机械传感器带来的弊端,使对永磁同步电机进行
学位
在矿山工程建设领域,斜坡道与平巷有诸多不同,由于斜坡道倾斜向下穿越不同地层,单从围岩分级方面来说,若完全按照国标进行围岩分级,则全程需要大量的室内试验,这无疑是不可取的。此外,由于围岩分级困难而衍生出的支护困难,也是斜坡道工程最为棘手的问题之一。本文以马钢姑山矿业公司钟九铁矿斜坡道建设为工程背景,针对斜坡道围岩分级困难以及支护方式和参数不合理等问题,综合运用现场实测、室内试验、理论分析和数值模拟等
学位
随着医疗和检测技术的提升,主动健康和家庭健康检测概念均被提出,但目前的健康检测主要集中在传统医院检测以及社区医院检测,该检测模式可以做到全面检测但存在一些弊端,如检测时间较长、过程较为繁琐等;家庭健康检测产品及系统上也存在一些问题,如大部分检测产品只是对单一指标进行检测、部分产品功能存在重叠、系统不够完善,无法建立个人健康档案、无法提供有效的医患沟通平台等。构建并设计家庭智能主动健康检测模式及相关
学位
当前,工业过程粉尘的捕收与净化是环境保护的研究热点,工业场所装载点、落料点及转运点等较大面积难封闭产尘源粉尘几乎处于自由扩散的状态,现场采用吸尘罩远距离的抽吸收尘效率低下,未有有效的装置对粉尘进行有序捕收,致使车间环境恶劣,威胁工人职业健康。风幕可以实现有序导流,改善粉尘与操作人员的接触,利用风幕来协同抽吸气流对作业场所难封闭产尘源进行收尘是阻止粉尘扩散的有效方法之一。但目前针对作业场所产尘空间较
学位
由于化石能源的大量消耗,环境与能源问题已经成为当前两大社会热点且迫切需要解决的挑战,在众多解决方案中利用太阳能和半导体进行光电化学(PEC)分解水产氢是目前最为理想的构思之一,且氢气环保无污染的特点,进一步引起了广大学者的兴趣,所以急需合适材料来完成能量的转换。三元铜基化合物Cu Bi2O4因其合适的带隙、理想的起始电位以及低成本等独特的优点受到越来越多的亲睐。虽然存在上述优点,但是Cu Bi2O
学位
我国存在大量的煤矸石山,其发生自燃后会严重破坏生态环境、危及人的生命健康。尤其经过淋溶以后的矸石山其内部孔隙及热特性发生了改变,自燃更为严重。但是现在大多数研究注重于矸石的燃烧特性,对淋溶矸石山及其矸石山内部贫氧燃烧情况研究较少,无法为煤矸石山自燃治理提供足够的理论依据。因此研究贫氧及浸水条件下煤矸石的热属性对矸石山防灭火具有重大意义。首先,采用热分析仪测试了煤矸石在不同贫氧条件下从低温氧化到高温
学位
随着我国煤矿开采深度的增加,深部煤层的瓦斯治理工作面临严峻的考验。煤层渗透率不仅决定了煤层瓦斯的渗流特性,还是影响瓦斯抽采难易程度和抽采效果的关键因素之一,且煤层渗透率不仅与煤体自身微观孔隙结构有关,还受到来自应力场、瓦斯渗流-扩散场的影响。本文以任楼煤矿72煤层为工程背景,从钻孔、巷道和采空区的角度,采用实验研究、理论分析和数值模拟的方法对多尺度空间条件下煤层瓦斯跨区渗流特性开展系统的研究,并获
学位
本文针对韩咀煤业2#煤层中存在大量顶煤破坏区,回采巷道围岩稳定性差、支护困难,煤柱预留尺寸难以确定等问题,开展顶煤破坏区煤巷支护参数优化及安全评价系统研究。以32103辅运巷顶煤破坏区段为工程背景,通过室内力学试验,探讨煤体破碎程度对注浆加固体强度参数及破坏特征的影响;通过数值模拟,优化巷道支护参数;并基于灰色模型,构建巷道变形预测模型,建立了煤巷支护安全评价体系;再结合本文及前期研究成果构建顶煤
学位