基于特征级图学习的无监督特征选择算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:you19841231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据表示是机器学习、数据挖掘和模式识别等领域共性的基础问题之一。随着数据采集等相关技术的快速发展,许多实际应用场景中普遍存在着高维大数据。同时,数据采集过程中不可避免的会引入部分低质量的特征比如噪声数据和异常特征等。这些高维数据一方面通过采用更高维度的特征使得对数据内在结构的刻画能力得到增强,另一方面也引入更高的数据存储计算成本并且给机器学习等相关算法的学习提出了更高的挑战。研究人员近年来提出多种方法处理高维数据,其中代表性技术包括数据降维和特征选择。特征选择技术根据是否依赖数据真实标签大致分为有监督、半监督和无监督三类。无监督特征选择方法在进行特征选择时不依赖真实数据标签,因此有着较为广阔的应用前景并对算法提出更高的挑战。近年来研究人员提出大量的无监督特征选择算法其中主要包括过滤式和嵌入式等两大类方法。一般来说,过滤式方法超参数较少,算法实现较为简单,性能较为有限;而嵌入式方法通常涉及较多的超参数,算法过程相对复杂,经过仔细调参后性能较高。尽管无监督特征选择领域近年来已经提出了多种方法,但是这些算法依然存在一些缺点:(1)现有算法普遍采用基于向量的表示进行特征选择。当数据存在低质量特征时基于向量的数据表示对数据邻域结构进行的细粒度刻画使得现有特征选择方法容易受到干扰。(2)由于缺少标签信息指导特征搜索,无监督特征选择算法的超参数搜索和调优在实际应用中可行性较差。针对以上两个问题,本文提出了两种新的无监督特征选择算法。本文的两个算法都以英文论文的方式发表于被EI检索的国际会议和被SCI2区检索的国际期刊。具体如下:(1)提出了特征级LLE构图的过滤式无监督特征选择算法。为了刻画数据基于所有候选特征的内在结构,该算法在以所有特征为输入的情况下采用局部线性嵌入的方法构建全局性的邻近结构图。为了刻画单个特征的表示能力,该算法以单个特征为输入并且同样采用局部线性嵌入的方法构建面向单个特征的邻近结构图。至此,该算法既获得了基于所有特征的局部邻近图也获得了基于单个特征的局部邻近图。该算法通过基于全局特征的邻近结构图与单个特征的邻近结构图之间的差异来刻画单个特征对数据整体内在结构的表征能力。此外,该算法进一步通过局部线性加权的方式用相似特征的邻近结构图进一步提高算法的鲁棒性和普适性。值得指出的是,该算法属于过滤式无监督特征选择算法。与现有过滤式方法差异之处主要在于该算法采用了特征级LLE构建的邻近结构图对数据结构进行表示而不是传统的基于向量的数据表示。基准实验结果表明该算法的性能要优于主流的过滤式特征选择算法。(2)提出了特征级邻近图重建的嵌入式无监督特征选择算法。该算法分别以所有候选特征和单个特征为输入数据,并采用K近邻算法构建基于所有特征的邻近结构图和基于单个特征的邻近结构图。该算法通过采用特征级邻近结构图线性加权的方式来重构基于所有特征的邻近结构图,并采用线性加权的权重来刻画特征的表征能力。与本文提出的上个方法类似,本算法同样将采用特征级构图的方式反应特征的表征能力。该算法采用的特征图线性重构的特征权重学习方式一方面刻画了单个特征邻近图与基于所有特征的邻近图之间的相关性,另一方面也刻画了特征之间的冗余性。因此,该算法是特征表征能力在相关性和冗余性上的一种平衡。此外,该算法可以获得全局最优的特征权重,并且不需要设置相关超参数,即本算法是无超参数的嵌入式无监督特征选择算法。基准数据集上的实验结果表明本算法要优于主流的无参数无监督特征选择算法。综上,本文围绕特无监督特征选择这一数据挖掘领域的基础问题展开研究,通过采用对单个特征构建邻近图的学习策略来反应单个特征对数据内在邻近结构的刻画能力,先后提出了对应的过滤式和嵌入式无监督特征选择算法。值得注意的是,本文提出的基于特征级邻近图重建的嵌入式无监督特征选择算法在充分平衡特征相关性和冗余性的基础上获得全局最优的特征权重,并且整个算法无需设置额外的超参数。鉴于上述特点,本文提出的算法在实际中将有着一定的应用价值。
其他文献
二次静电放电(Secondary Electrostatic Discharge,SESD)是一种特殊的静电放电现象,相比一般意义上的静电放电事件,二次放电发生在电子仪器、设备内部的微小间隙之间,威胁过
无透镜数字全息成像技术通过光电传感器记录下物光与参考光的干涉图样,利用计算机数值模拟再现光的衍射过程,从而得到含有被测物振幅信息和相位信息的重建图。该技术结构简单
选矿工业在国民经济中占有重要地位,选矿生产过程实现自动控制是提高产品质量、节能降耗、减员增效的关键所在。自动控制系统特别是PLC控制软件在现场投运之前,需要经过一系
文本分类是自然语言处理领域的一个重要研究课题,其主要任务是将输入文本自动归类。随着互联网技术的快速发展,如今全世界每时每刻都有数以亿计的文本信息在互联网中产生,其
高管作为企业中的核心人员,对于上市公司各个方面的决策均起到了重要的作用,一位优秀的高管更将会带领公司前行走向新的征程,当上市公司的高管发生变更时,会给公司内部的治理
2004年起,中国大力倡导培养合格的机构投资者。目前,机构投资者已经成为了中国股市投资者的中坚力量。其中不同类型的机构投资者的投资理念以及投资风格存在着较大的差异。对
工业控制系统是一种面向服务的信息处理系统,担负着不同场景下的监视、数据采集、控制、解算结果等任务,系统中通常包含许多异构实现的处理节点。近年来,工业控制领域的信息
实际工况的混凝土结构,在一些环境下可能会受到化学腐蚀作用,且混凝土在较大的荷载作用下内部可能有微裂缝的产生和扩展,会加快化学腐蚀速度,使混凝土损伤劣化更为严重。混凝
氧化石墨烯优秀的光学特性、超宽的透光范围以及较高的损伤阈值,弥补了传统可饱和吸收体的不足,成为制备吸收体的理想材料。本文采用改进的Hummers法制备出氧化石墨粉末,经超
据统计,我国是世界上农药生产及用量大国,因农药残留导致的环境污染和食品安全问题不容乐观,对人体健康造成了严重的威胁。现有的农药残留检测方法中,以色谱法为代表的仪器分