两种特定包裹式特征选择算法的改进研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lookingintheeye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,硬件成本不断下降,软件算力不断增强,IT领域正式进入数据爆炸的全新时代。同一时期,机器学习凭借自身能够从历史经验中改善提升算法性能的卓越优点,再度焕发出新的生命活力。特征选择是重要的数据预处理手段,也是机器学习研究领域的重点内容与重要任务,它能够有效地降低数据特征的空间复杂度、减少分类器学习时间并提高分类精度,选择的特征将直接影响后续机器学习模型的性能。特征选择依据自身与分类模型的关系,一般分为过滤式、包裹式和嵌入式,而按照特征子集的生成方式又可分为随机搜索式和启发搜索式。近年来,包裹式的特征选择研究收到了众多研究者的关注,其中较为经典的研究是基于启发式的包裹式特征选择算法,而更为新颖的研究便是随机搜索一类中基于群体智能(SI,Swarm Intelligent)的包裹式特征选择选择。本文基于以上两类研究内容改进提出了两种包裹式特征选择算法,它们分别为基于群体智能的二进制麻雀特征选择算法BSFSA(Binary Sparrow Feature Selection Algorithm)与基于启发式的特征选择算法LGBFS(LightGBM Feature Selection)。麻雀搜索算法(SSA,Sparrow Search Algorithm)是一种基于麻雀智能行为的SI算法,其考虑麻雀的社会组织及其对环境的适应性来求解决连续优化问题,本文对其做出三点改进并应用于特征选择:为淘汰随机初始化产生的劣势解,采用混沌初始化结合反向学习作为新的初始化策略;在更新解阶段为跳出局部最优,引入差分进化对原有解进行交叉变异;贪心选取多组解中的最优解作为下代解;为将连续优化类的SSA适应离散类的特征选择,选择三种转移函数进行二值化并最终选取对分类效果提升最大的S(Sigmod)型转移函数。为验证BSFSA性能,选取KNN(K-nearest neighbor)作为分类器,应用于特征选择领域广泛使用的21个UCI标准数据集,与7种基于SI的特征选择算法和2种过滤式特征选择算法在适应度、分类精度和维度缩减率等方面进行对比,实验结果表明BSFSA能够出色兼顾特征子集的分类精度与维度缩减能力,相较对比算法具有一定优势。此外,本文对BSFSA的稳定性与显著性进行了分析验证,给出了标准差并和差显著性检验,结果表明BSFSA稳定性较好且,与对比算法存在显著区分。LightGBM是一种能够高效处理分类问题的机器学习框架,本文引入LightGBM对原始特征构建迭代提升树模型,随后利用树形结构的两种启发式信息对特征重要度进行度量,并结合提出的一种改进LR序列浮动前向搜索策略LRSFFS对原始特征进行选择,最终形成本文提出的基于LightGBM的特征选择算法LGBFS。为检验其性能,将其与9种主流特征选择算法在21个UCI标准数据集上进行分类精度、维度缩减能力以及CPU耗时的对比实验,实验结果显示,LGBFS能够出色地平衡CPU耗时与分类精度,同时也能得到具有较高维度缩减率的特征子集。为论证实验结果的有效性,又给出了必要的显著性检验和时间复杂度分析,结果表明,LGBFS与对比算法具有显著区分,其CPU耗时的高效具有足够的合理性。
其他文献
时序预测是一项重要的研究课题,在金融、医疗、气象、交通运输、电力调度等民生领域有着广泛的应用,因此,对于时序预测相关问题的研究一直是学者们关注的热点。从早期的基于统计理论的时序预测方法研究,到21世纪初,基于传统机器学习方法的时序预测方法逐渐发挥其性能和优势,再后来,随着计算机算力的大幅提升和深度学习理论的发展,利用基于深度神经网络的模型进行时序预测成为了新的研究热点。然而,在小样本时序预测场景下
学位
针对利用DSC曲线研究煤氧复合反应的阶段划分、热量变化及产物生成路径等方面存在定义表述不够系统,TG和DSC耦合分析不够深入等问题,利用TG/DSC/MS联用技术,开展惰气和空气氛围下不同升温速率煤氧复合全过程的测试与分析。实验表明:基于DSC划分法可将煤氧复合全过程划分为水分蒸发及气体脱附吸热阶段、化学吸附和缓慢反应放热阶段、煤热解生成活性基团放热阶段和挥发分与固定碳燃烧放热阶段。通过特征温度的
期刊
Npm(Node Package Manager)作为JavaScript语言的软件包管理器,管理着超过250万的开源第三方库——npm包。由于缺少合适的分类方式,海量的软件资源面临着管理与检索的难题。在开发者分享和交流npm包的开源社区中,自定义的标签在描述包功能的同时也起到了一定程度的分类作用,然而当前的标签机制存在着内容混杂、同义词表述形式不同等问题,无法满足管理与检索的需求。不仅如此,np
学位
爆破振动作为最主要的爆破危害之一,需要严格控制和准确预测。本文以武家塔露天煤矿爆破开采为背景,以西部边帮到界安全开采为目的,利用现场实测数据,采用不同的非线性预测方法对西部边帮的爆破质点振速峰值进行预测,为今后该区域的爆破参数设计提供参考和支持。通过对武家塔露天煤矿岩体爆破产生的振动进行长期监测,获得多组现场实测数据,利用最小二乘法对萨道夫斯基公式进行拟合分析,并采用高程修正公式对正高程台阶的爆破
学位
相对非结构化的信息,规则的结构化信息更容易被机器使用。因而,化信息非结构化为结构化的信息抽取技术是一项值得深入研究的工作。关系抽取是一种提取结构化信息的任务,它面向已经被标记好的实体对,依据文本句子特征判定两个实体间的语义关系。近些年来,基于深度神经网络的方法在关系抽取任务中取得了不错的效果。但是,随着神经网络方法的精度不断提升,关系抽取任务消耗的成本也日益增加。为了缓解这一现象,本文将研究的重点
学位
时代在发展,科技在进步,越来越多的新技术、新材料、新工艺应运而生。天线是接收或者是在发射系统当中,应用固定方法进行发射或者是接受电磁波的主要部分,其中扮演着重要的角色,无论是在发射信号还是在接收信号的过程当中,天线都能够将自己的作用发挥出来,呈现出更好的工作效果。因此,文章主要对民品电磁兼容测试用天线的应用以及技术进行仔细的分析,希望能够为相关关注人员起到一些参考和帮助。
期刊
图深度学习模型近年来取得巨大成功,这很大程度都要归功于大数据的训练。经典的图数据挖掘通常采用表示学习方法,即将图数据中的节点和关系输入到图深度学习模型中获得包含图数据信息的嵌入向量,然后对该向量进行相关操作,完成图数据上的下游任务。然而当图上的数据集过小,图深度学习模型的性能会急剧下降,这使得对图数据的挖掘与分析变得相对困难。随着元学习的兴起,出现了将元学习应用于解决图数据挖掘少样本问题的少数算法
学位
2型糖尿病(T2DM)具有病程长,起病隐匿的特点,风险预测模型在疾病早期发现、治疗,提出针对性干预措施方面具有较大潜能。针对T2DM的风险预测模型研究逐年增多,为实现T2DM精准三级预防奠定了基础。但多数研究存在样本量小、变量复杂、应用推广困难等问题。本文对基于经济、易得的常规体检指标建立的T2DM风险预测模型研究进行综述,以便进一步探索易于应用和推广的T2DM风险预测模型。
期刊
土石混合夹层通常出现在各类地质构造作用形成的破碎带中,其结构大多松散,力学强度低。在露天矿开采过程中,受软弱夹层影响导致失稳的案例不胜枚举,且呈现频率高、难治理、灾害大的特点。本文依托科研项目“采动影响下含软弱夹层边坡稳定性及开采控制研究”,以齐大山铁矿含土石混合夹层边坡为研究对象,在工程地质条件调查的基础上,开展了土石混合夹层的剪切性能试验,采用数值模拟结合相似模型试验的方法,研究土石混合夹层对
学位
柑橘黄龙病是由韧皮部杆菌属类细菌(Candidatus Iiber4bacter)引起的柑橘毁灭性细菌病害。柑橘溃疡病是由薄壁菌门黄单胞杆菌属地毯草黄单胞杆菌柑橘致病变种(Xanthomonas axonopodis pv.citri)引起的柑橘重要细菌性病害。研究柑橘植株内生微生物和黄龙病菌、溃疡病菌之间的相互关系,有助于从微生态角度防控黄龙病菌和溃疡病菌。本研究利用高通量测序技术对患有黄龙病菌
会议