基于离散粒子群优化算法的高维数据特征选择分类方法研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:xf198699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,机器学习算法通常需要处理大量高维数据。数据的维度高意味着其含有大量的特征,这通常给模型的建立带来困难,例如分类问题或回归任务。高维数据中有大量特征是不相关或冗余的,它们对训练模型的性能产生负面的影响。为了解决这一问题,特征的选择问题得到了广泛关注,其旨在通过选择更小的特征子集来提高分类测试的准确性。特征选择是一个组合优化问题,而粒子群优化算法作为一个全局寻优的进化计算技术,在特征选择问题得到了广泛使用。除此之外,离散化技术也是特征选择预处理阶段的重要手段,通过离散化技术,可以忽略数据集中特征的微小波动和噪声。因此,本文对离散化粒子群优化算法在特征选择问题上的应用进行了深入研究分析。本文的主要研究工作包括以下三点:1)分析高维数据的特征冗余问题,阐明了特征选择的关键性与必要性。分析了近年来国内外基于离散粒子群优化的特征选择算法的研究成果,总结出三大类典型离散化的方法。着重介绍了基于二进制和基于切点这两种离散化方法,并分析其在结合基于粒子群优化算法的特征选择问题上的优势与不足。2)通过分析离散二进制粒子群优化算法容易陷入局部最优、粒子探索能力较弱和计算开销太大等问题,本文提出了一种混合过滤器式与包装器式的特征选择算法。本方法使用标准化互信息对数据集进行预处理,提出了新的粒子群更新方式和新的适应度函数,并使用自适应机制更新惯性权重。通过在高维数据集上的对比实验表明,本方法在分类性能上具有更好的表现。3)根据对基于最小描述长度准则生成切点表的离散化方法的研究,本文提出了一种新的基于离散化的粒子群优化特征选择方法。在本方法中,设计了新的编码与解码方式,实现将切点数量和切点索引在同一阶段确定。首先,使用了特征集预筛选过程以减小特征子集的大小。然后,得到一个基于排名的切点表,该表存储了多个切点,这些切点按其对每个特征的分类贡献进行了排序。为了找到可以最好的区分数据样本的最佳切点组合,本方法适用了一种简单而有效的编码和解码方式。此外,在更新过程中本方法使用了一种新的局部搜索策略以更好的寻找最优解。在高维数据集的实验结果证明了该方法的性能。
其他文献
二维过渡金属硫属化物(TMDs)已被证明了拥有高载流子迁移率、禁带宽度对于紫外到近红外光波段理想以及与材料层数相关的能带结构等有利于光探测器应用的优秀性质。迄今为止,一系列性能优秀的二维TMDs基光探测器已被制备出来。然而,其中多数的报道都是使用剥离法或化学气相沉积法等的制备技术,有样品尺寸小、不可控、生产规模小以及生产过程不洁净的缺点。目前大量关于TMDs基光探测器的报道都是围绕二硫化钼、二硒化
钢筋混凝土梁斜截面抗剪性能是钢筋混凝土理论体系及结构设计中非常重要的一个内容,但由于影响抗剪承载力的因素众多,合理地解释其抗剪机理并给出准确的抗剪强度预测值仍是一个非常具有挑战性的问题。一百多年以来,不同国家的众多学者提出了一系列抗剪分析理论,例如经典桁架理论、变角桁架理论、拉压杆模型、压力场理论、修正压力场理论、简化修正压力场理论等。其中,修正压力场理论是一种被很多学者认为较为准确有效且被一些国
随着社会发展和生活水平的提高,人们越来越重视健康,并希望及早发现身体内潜在的疾病,防患于未然。柔性可穿戴式设备具有体积小、重量轻及穿戴简便舒适等特点,可对人体生理信号进行实时采集和连续监测,从而实现疾病的早预防、早发现,因此越来越得到广泛关注。柔性可穿戴式设备中的关键部件为高性能的柔性传感器,其中,柔性应力传感器因制备工艺简单、柔性可拉伸、贴敷性好以及探测信号丰富等优点,被广泛用于人体生理信号的实
公立医院在发展改革过程中所面临的一项迫切任务就是有效地管理大型医疗设备,加强投资效益分析、评价与考核,从而合理配置资源,提高资源利用率。我国大部分公立医院中,医疗设备中价值100万以上的大型医疗设备资产占全部固定资产的比重都过半,只有科学有效地管理好大型医疗设备,让其价值得到充分发挥,才能对医院产生巨大的效益,这是公立医院谋求出路的迫切任务。而当前我国公立医院在对大型医疗设备的投资效益进行考核评价
随着化石能源减少和环境污染的日益加剧,分布式能源被越来越多的开发利用,但是分布式能源不能直接接入到电网中,因此微电网的概念被提出从而更好地利用分布式能源,以减少对电网的影响。目前在微电网研究中,直流微电网能够友好接纳分布式电源,为用户提供优质的电能。相比于交流微电网,直流微电网减少换能装置,提高了能源利用效率。此外,直流微电网具有结构简单、各单元间协调控制简单等优点。因此,对直流微电网的研究具有重
舒适宜人的光环境对于健康建筑至关重要。已有大量研究证实了不恰当的光环境会影响人体褪黑激素分泌,影响人体节律,甚至导致一系列生理与心理疾病。同时,人们还设定了若干标准体系判断建筑光环境是否满足健康要求。屏幕设备扮演着信息源与光源的双重角色,影响着其所处的空间光环境。作为建筑空间中的新元素,屏幕被广泛用于各类建筑空间场景下,且在现代科技技术不断发展的进程中,有可能进一步演进为建筑的全新界面,重构建筑空
随着科学技术的飞速发展,电力设备的快速普及,接入电网的敏感元器件以及精密仪器逐步增多,生产生活对用电质量的要求达到了前所未有的高度。同时大型整流设备的运用以及电网覆盖面积的增加使得各类电能质量问题日益加剧,这些电网中的干扰不仅会影响电力系统的正常工作,甚至会造成设备损坏带来巨大的经济损失,因此构建高速精准的分析方法成为当下研究的热点。压缩感知作为新兴的信号分析方法,有着速度快、精度高等特点,尤其是
本文主要研究了从造纸厂碱性土壤中筛选得到的,能够产生耐碱木聚糖酶的两株放线菌X24-14和X15-17。通过16 S rRNA基因序列分析并结合菌株的形态特征以及生理生化特性,初步认为菌株X15-17为拟诺卡氏菌属(Nocardiopsis)的一个潜在新种;菌株X24-14为纤维化纤维菌(Cellulosimicrobium cellulans)。在此基础上探索了菌株X24-14和菌株X15-17
用户在社交媒体中发布的信息中可能携带着位置信息,对于不包含准确经纬度定位信息的内容,可对其分析时间和空间维度以获得用户位置的跟踪。传统的轨迹探测方法其主要缺陷在于,在检测非标准用户内容时,它对于轨迹识别的模糊内容的容错能力以及识别精度均较低;此外,对于能记录携带经纬度信息的轨迹位置信息的场景,往往由于设备的续航问题使得轨迹的补充必不可少。本文的主要的研究内容包括:1)提出基于树索引的用户轨迹发现方
近年来随着科技的不断发展,数据资源的重要性愈发突显。因为它记录了客观事物各方面的性质和特点。通过对数据的探索和分析,可以挖掘出数据潜在的大量价值,这些价值都能更好的改善生活的方方面面。为此,各行各业都存储了大量的数据,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据等。为了能够更好的挖掘数据潜在的价值,许多数据挖掘技术成为了近几年来的研究热点,如:聚类,分类和推荐算法等。