面向高维数据分类的集成学习算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:horns01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字经济时代下,数据作为关键的生产要素,蕴含着重要的知识与信息。为了从大量的数据中挖掘出具有价值的知识信息与潜在规律,对数据进行自动化分类已经成为机器学习领域的研究热点。在模式识别与机器学习的许多实际应用中,如生物信息学、基因微阵列分析、图像识别、文本分类等都面临着高维数据的分类问题。复杂的高维数据包含着大量的噪声和冗余特征,这不仅增加了对数据的存储开销,还增加了构建分类模型的复杂度。同时,高维数据中往往还会夹杂着样本量小、类别不平衡等问题,给分类算法带来严重的负面影响,容易引发维数灾难问题、算法过拟合问题以及算法偏向多数类样本问题,造成分类性能的急剧下降。因此,面向高维数据的分类研究面临着巨大的挑战,迫切需要提出一种有效和鲁棒的分类算法以解决上述的问题。由于在高维数据中难以构造出一个最优的分类器,因此集成学习成为了一种解决高维数据分类问题的有效策略。通过构建出多个不同的分类器,并将这些分类器的预测结果整合起来,集成学习可以得到一个更加准确和鲁棒的预测结果。本文主要围绕集成学习方法在高维数据与高维不平衡数据中的分类问题展开研究,提出了多种有效的集成学习框架。旨在提升集成成员在高维数据中的准确性与多样性,从而构建出一个更加强大和鲁棒的分类器集成系统。本文的主要工作总结如下:1)针对高维数据的分类问题,本文提出了一种基于空间感知的自适应分类器集成算法(Ada SPEL)。首先设计了一种局部空间感知方法,将特征转换应用在多个随机且不相交的局部特征子集上,以缓解算法在高维数据中失效的问题。同时,该方法有助于提升集成成员的准确性与多样性。然后,设计了一种基于样本分布的跨空间感知方法,以生成跨空间增强特征,为数据提供更清晰的宏观分析。最后,设计了一种基于局部和全局评估机制的自适应选择性集成方法,以提升集成系统的分类性能。在不同的高维数据集上与主流的集成方法进行了对比实验,实验结果验证了该算法的有效性。2)考虑到高维数据中包含了大量的冗余和无效特征,对特征集进行随机划分无法保证每个局部特征子集的质量,这可能会对算法产生负面影响。针对这个局限性,本文提出了一种基于子空间增强的分类器集成算法(CESE)。首先提出了一种优势子空间增强方法,对高维数据进行有效的特征选择与转换。在不同的随机场景中,生成多个具有多样性与辨别能力的子空间增强特征。然后,提出了一种混合空间增强方法,对子空间增强特征执行多尺度旋转重构来获得混合增强特征,以增强特征的表示能力。最后,设计了不同的增强特征组合策略以提高算法的分类性能。在不同的高维数据集上的实验结果表明,CESE优于其他主流的分类器集成方法。3)本文提出了一种自适应子空间优化集成算法(ASOEM),旨在为高维不平衡数据分类构建出一个强大的集成系统。首先提出了一种自适应子空间生成方法,该方法考虑了特征在不同场景中的性能,从而挖掘出更鲁棒的优势特征子空间,缓解了高维不平衡数据中冗余和无效特征的影响。然后,通过使用旋转子空间优化,将优势特征子空间中的单变量特征转换成多变量特征,以增强特征的表示能力与多样性。最后,基于不同的重采样策略实现了ASOEM的多个扩展版本以验证出算法的通用性。在高维不平衡数据集上的实验结果表明,该算法优于主流的不平衡学习方法与分类器集成方法。4)考虑到在高维不平衡数据中难以构造出一个最优的特征子空间,本文提出了一种基于多视图优化的分类器集成算法(CEMVO),旨在从特征优化与样本优化两个方面处理高维不平衡数据。首先提出了一种优化子视图生成方法,从不同的随机场景中生成多个多样的优化子视图。然后,考虑到优化子视图是从不同场景中生成的,它们的泛化能力存在差异性。因此,提出了一种优化子视图选择性集成方法,从优化子视图中整合出一个泛化能力更强的优化视图。最后,在优化视图中执行过采样策略,以构建出新的类别平衡子集,从而缓解了不平衡数据对基分类器的影响。在不同的高维不平衡数据集上的实验结果证明了所提出的算法的优越性。
其他文献
随着5G移动通信、无人驾驶和虚拟现实/增强现实(VR/AR)等应用对高数率、低延时通信的需求,毫米波通信技术成为进一步提高无线通信服务的技术方案。毫米波相控阵前端作为毫米波通信技术的核心部件,受到了工业界和学术界的广泛关注。然而受限于相控阵前端的高成本、高功耗、结构复杂的原因,毫米波通信目前尚未大规模推广应用。为了降低相控阵前端的成本和功耗,本文基于硅基工艺对毫米波相控阵收发前端及其关键电路模块(
学位
。在民用建筑发展中,技术应用是影响施工质量的重要因素。工程管理人员必须对技术创新的重要性和应用进行全面分析,以有效提升工程质量。在信息化不断发展的今天,在建筑行业各种施工技术的更新,促进了企业的良性发展,同时也提高了我国建筑工程行业的整体施工水平。由此可见,对于工程施工技术的创新十分重要。施工企业要想适应时代的发展需要,就要分析当前施工中存在的不利因素,明确进行施工技术创新的方向。基于此,本文阐述
期刊
现代信息技术的进步推动社会快速发展,人们对通信速率不断提出新的要求,支持多种无线通信标准的宽带毫米波相控阵系统是国际学术界和工业界的研究热点。在毫米波相控阵系统中,低噪声放大器是接收链路的第一个有源模块,主要用于减少杂波干扰,提高系统的灵敏度,同时放大射频信号,保证系统正常工作。因此,低噪声放大器的作用十分重要。但是,低噪声放大器的性能会随着工作带宽增加、频率上升到毫米波而急剧恶化,在集成度高但损
学位
介质阻挡放电(DBD)是一个典型的非平衡耗散系统,外施参数的变化会使其发生均匀放电和柱状放电之间的模式转换,并可能引起丰富的自组织行为。然而,目前人们对这种空间放电模式转换的认识仍十分有限。为了揭示其中的暂态演化机理、理解均匀稳态失稳的动力学机制以及实现均匀性的有效调控,本文以大气压氦气(He)平行板DBD作为研究对象,利用等离子体流体仿真,同时辅以基于反应-扩散系统的线性稳定性分析和实验验证,开
学位
无线电能传输(Wireless Power Transfer,WPT)技术作为一种非接触式能量传递技术,摆脱了供电导线束缚,具备安全、便捷、易于维护以及可适应极端工作环境等优势,应用前景广阔。磁耦合WPT系统具有功率等级广泛、电磁辐射水平较低以及对传输介质依赖小等特点,近年来已成为WPT技术主流研究方向。相比于单负载WPT技术,多负载WPT技术可便捷地为多个自由放置的负载设备同时供电,因此极为契合
学位
背景:多因素多步骤的病理演化导致的膀胱癌(BC),是常见的泌尿系肿瘤之一,其发生既受内在的遗传因素制约,也受外界环境因素制约。目前已知吸烟和生化物质接触等因素是最常见的外界影响因素。内在的遗传因素主要是膀胱抑癌基因和/或致癌基因异常表达导致黏膜尿路上皮细胞癌变。随着医疗科技飞速发展,膀胱癌诊疗已经取得了巨大进步,但仍然面临着许多棘手问题,膀胱癌高发病率、复发率、转移率等问题仍旧没有从根本上得到解决
学位
随着大功率、紧凑型电子器件以及能源系统的迅速发展,电容器小型化及轻量化的需求日益迫切,因此研制高储能密度的电介质具有重要意义。在众多聚合物中,聚偏氟乙烯基铁电材料由于高介电常数以及优良的加工性被认为是制备高储能密度电容器的理想材料。然而,其高固有损耗以及低击穿强度限制了储能密度的进一步提高。为解决这一问题,本文通过设计纳米材料以及聚合物基体的微观结构,并利用全有机复合或原位合成技术解决了传统纳米复
学位
电网换相换流器是高压直流输电系统的核心设备,其承担着交直流转换的功能。然而,在实际工程运行中,换流阀设备损坏和换流器闭锁事件时有发生,准确可靠地提取换流器故障特征对提升换流器保护可靠性具有重要意义。因此,本文围绕提升换流器自身安全和系统稳定运行的重大需求,针对端口电流差流特征对故障检测和故障定位的不足,提出从换流阀本身出发,综合利用换流器端口电流幅值和时序特性与换流器各阀状态的内在联系,构建了换流
学位
在5G Sub-6 GHz基站系统中,移动通信运营商普遍采取多频段混合组网的方式,为此需要将4G/5G基站天线一体化集成设计,即不同制式不同频段的天线单元高密度集成在同一阵列。然而,在密集排布的多频基站天线阵列中,相邻的异频天线单元在彼此工作频段内存在较强的干扰,导致天线端口隔离度恶化和方向图畸变的问题。为了解决这两大问题,本文提出基于滤波天线和透波天线技术的异频自隔离方法。通过在天线设计中融合滤
学位
宇称-时间(Parity-Time,PT)对称无线电能传输技术在强耦合区域,输出功率、效率与耦合系数无关,可以实现恒功率、恒效率运行。然而,当传输距离超出强耦合区域或大于临界传输距离时,PT对称无线电能传输技术的传输效率随耦合系数减小迅速下降,制约了传输距离的进一步提高。为此,本文为提高PT对称无线电能传输距离,以拓宽其应用范围,在深入分析影响PT对称无线电能传输距离因素的基础上,系统地探讨了提高
学位