基于稀疏、低秩理论的特征选择算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:songyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择作为维度约简的重要方法之一,一直活跃在机器学习与模式识别的研究舞台上。特征选择由于其本身的可解释性和对原特征的保护性,能够帮助人们理解特征和数据之间的因果关联,因而被广泛应用于生物信息学,文本分类,图像处理,以及社交媒体网络等领域。随着大数据时代的到来,特征选择任务也面临着许多挑战,比如数据存在噪声,在无监督情况下样布空间结构难以估计,传统嵌入式方法存在潜在的过拟合风险等等,同时特征选择处理的数据的形式也由传统的静态数据逐步演变为更加常见的动态数据。本文针对特征选择任务中存在传统问题,以及面对的新挑战,进行了一些探索和尝试。主要的研究成果归纳如下:首先,本文提出了一种新的协同学习框架用于特征选择。具体来说,为了进一步提高被选择子集的泛化性能,除了传统方法中用于分析已选择特征质量的分类器之外,该方法引入了一个额外的分类器用于监控未选择的特征的质量,也就是说,它将会惩罚未选择特征出现低分类损失的情况,借此迫使有价值的特征尽可能多的进入被选择子集。本文设计了一个双层优化模型用于实现两个分类器的协同学习,同时通过稀疏约束实现特征选择,最后利用一个简单有效的梯度算法进行优化。此外,本文还从理论上证明了所提出的模型能够提高传统嵌入式特征选择方法的泛化能力。最后,在人工合成数据集和真实数据集上的大量实验显示了该模型的可解释性以及优秀的性能。其次,本文提出了一种基于低秩结构保持无监督特征选择的方法。为了削弱所选特征之间的“相似性”,同时增强高度相关样本之间的“相似性”,本文从组稀疏正则化的数据重构和低秩正则化的结构保持这两个角度出发,提出了一种新的无监督特征选择模型。其中,稀疏约束消除了冗余特征和不相关特征,降低了特征之间的相似性,这有助于学习过完备字典,并在低维嵌入中进行数据重建;同时,利用低秩约束使得那些能够保持样本之间的相似性的特征被选择出来。通过字典衔接了这两个子任务。这样,根据所学到的字典,使得样本有了更紧实的表示,有利于构建更准确的样本系数矩阵,然后根据样本系数矩阵所得到的聚类结构反过来进一步指导特征选择。理论和实验结果均证明了该方法的有效性。随后,本文提出了一种基于非负稀疏子空间学习的特征选择模型。该方法在统一的框架下同时进行鲁棒无监督特征选择和稀疏子空间学习。在该框架中,对特征权重矩阵同时施加组稀疏约束和非负约束,增强了模型的合理性;使用稀疏正则刻画残差,在实际应用中降低了稀疏噪声和离群点的负面影响,提高了模型的鲁棒性。针对模型中同时出现的组稀疏约束以及非负约束,本文设计了一个交替优化策略,求解这个非凸非光滑模型,并从理论上证明了该算法的收敛性。值得一提的是,该模型的非负迭代乘子有别与以往常用的纯加性原则,但本文给出了这个迭代乘子的非负性证明。此与以往通过迭代计算矩阵逆来求解组稀疏约束的方法相比,本文提出的算法简单高效。最后,在各类真实数据集上的大量实验证明了本文提出方法的有效性和鲁棒性。最后,本文提出了一种基于度量融合的去冗余流特征选择框架。流特征场景下,数据充满大量冗余信息。同时,在无监督的情况下,样本空间结构难以通过部分已到达的特征一次性完整描述。现存的无监督流特征选择算法通常利用特定回归模型的简化近似形式进行在线测试,无法对样本空间的结构进行动态估计和保持,因此难以在流特征场景下较好的维持数据的本征特性,从而进一步影响特征的评价的准确性。为了克服这一问题,本文利用度量融合的思想,在特征选择过程中维护一个刻画最新数据距离关系的度量矩阵,根据每批新数据来自适应的更新这一度量矩阵。用不断融合的度量矩阵指导下一批次特征的选择,并采取距离矩阵对齐的思想建立了优化模型,抛弃新批次数据中与累积特征最冗余的特征,达到自适应在线去冗余的目的。本文采用稀疏约束刻画特征选择向量,并设计了迭代阈值收缩算法来求解所提出的优化模型,推导出了复合阈值算子,并分析了算法的收敛性。在主流的特征选择数据集上验证了算法的有效性。总的来说,利用稀疏、低秩的理论研究成果,设计特征选择模型,具有物理上的可解释性以及理论上的收敛性保证,因此该类算法效果出色,具有一定的研究意义。本文围绕特征选择这一核心任务,结合稀疏、低秩理论的最新成果,构造了监督条件下双分类器协作的特征选择框架;分别设计了针对噪声数据,低秩结构数据的无监督算法;提出了流特征在无监督情况下的在线选择方案。全文涉及了静态和动态数据两种应用场景,为不同应用背景下的特征选择任务提供了一些新的思路。
其他文献
非平衡流与多相流广泛存在于自然界和工程领域,比如在超新星爆发、高超声速飞行、惯性约束核聚变、微机电系统和微流控技术、油气开采、发动机中的燃料混合与燃烧等问题中都会涉及。对于这类流动问题的研究不仅具有重要的科学意义,还能为工程实践提供有效指导。非平衡和多相流动问题通常具有复杂的时空多尺度和强非线性特征,对这类问题的研究既需要可靠的物理模型也需要有效的数据分析和信息提取技术。本文从物理建模和数值模拟两
为了实现受控热核聚变,很多国家相继开始了高功率固体激光驱动器的研制,且随着驱动装置功率的不断提高,光学元件的中高频参数对装置性能的影响日渐凸显,传统低频参数的评价及检测方法都已经不能满足需求。这里中高频参数是指光学元件表面微米到毫米量级的疵病(例如划痕、麻点)和空间周期为0.12mm~33mm的波面误差。论文从表面疵病对光学元件及光束典型传输位置处的影响、浅划痕检测、波面数据预处理及提高中高频功率
在壁面流动或钝体绕流中,流场中的一些不稳定机制,如Kelvin-Hemlholtz(KH)不稳定、椭圆不稳定等,使得扰动能量出现指数增长或瞬间放大,从而引起流动失稳,诱发流动转捩形成湍流,使得钝体或壁面所受阻力增加,这不利于航行器综合性能的提升。所以,需要施加一些控制来抑制扰动增长。流动系统根据扰动演化特征可分为振荡器和噪声放大器流动:若流场中存在随时间增长的全局扰动模态,且非稳态流动结构的空间演
水是普通而又十分重要的物质,与人类社会的发展息息相关,长期以来关于水的研究工作取得了丰富的科学成果。其中,液态水中放电引起的电离激发和液电效应具有很好的研究价值。电磁流动控制(EMFC,Electro-Magnetic Fluid Control)是通过电磁力(Lorentz Force,Electro-Magnetic Body Force)的形式将能量传输到流体边界层中,使得靠近物体壁面的流体
道路分割是自动驾驶系统中的重要组成部分,可靠和准确的道路分割结果是许多自动驾驶任务,如路径规划、驾驶决策等的前提条件。作为自动驾驶系统环境感知部分的基础任务,道路分割问题已经被研究了很多年,现有的道路分割算法已经能够获得比较准确的道路区域分割结果,但是很多算法在道路分割精度和算法计算复杂度之间不能取得很好的平衡,道路分割算法的稳定性也需要进一步提升。论文主要是研究城市场景中的道路分割问题,根据所使
相干光场中的奇异常被分为两类,一类是标量光场中的相位奇异,另一类是矢量光场中的矢量奇异与偏振奇异,这两类奇异分别与相位和偏振属性有关,在光场中往往充当“骨架”的作用。近年来,人们通过对光场中的精细拓扑结构进行深入研究,发现奇异光束在光学捕获、信息传输、光学编码、高密度存储、高分辨率成像等领域拥有大量独特性质,展现出广泛的应用前景。对于光场奇异的分布特性、形态结构、传输与散射性质、调控与测量等方面的
随着医学成像技术的飞速发展,现代医学的疾病诊断已经离不开医学影像的帮助。前列腺癌症和动脉粥样硬化斑块是严重危害人类健康的两大疾病,影像技术在其诊断中起到了至关重要的作用。磁共振成像(MRI)是诊断前列腺癌症常用的无创的辅助影像技术,超声成像则是内中膜结构(IMC)异常与斑块诊断不可或缺的工具。传统的人工目视观察获取图像中病灶信息的方法是非常费时费力且因人而异的。为了实现前列腺癌症、IMC与斑块的自
综合行政执法改革是全面深化改革的重要内容,也是加强法治政府建设、推进国家治理体系和治理能力现代化的重要基础性工作,乡镇(街道)综合行政执法改革是全面推进综合行政执法改革最后一环、关键一招。近年来,江苏省泰州市深入贯彻落实中央、省关于推进基层整合审批服务执法力量的要求,积极推进乡镇(街道)综合行政执法体制改革,
期刊
推进智慧水利建设。按照"需求牵引、应用至上、数字赋能、提升能力"要求,以数字化、网络化、智能化为主线,以数字化场景、智慧化模拟、精准化决策为路径,全面推进算据、算法、算力建设,加快构建具有预报、预警、预演、预案功能的智慧水利体系。一是构建数字孪生流域。以自然地理、干支流水系、水利工程、经济社会信息为主要内容,对物理流域进行全要素数字化映射,并实现物理流域与数字流域之间的动态实时信息交互和深度
期刊
近年来,通用的显著性目标检测模型在计算机视觉领域的应用越来越广泛,引起了越来越多的关注。总体上说,显著性目标检测算法可以分为两类:自底向上(Bottom-up)的方法(由激励驱动)与自顶向下(Top-down)的方法(由任务驱动)。自底向上的处理结果能够在自顶向下特征的作用下偏置到场景中感兴趣的部分,这些自顶向下信息包括目标的特征、先验信息、场景上下文和任务的需求等。自底向上和自顶向下这两种因素应