论文部分内容阅读
数据表示是机器学习、数据挖掘和模式识别等领域共性的基础问题之一。随着数据采集等相关技术的快速发展,许多实际应用场景中普遍存在着高维大数据。同时,数据采集过程中不可避免的会引入部分低质量的特征比如噪声数据和异常特征等。这些高维数据一方面通过采用更高维度的特征使得对数据内在结构的刻画能力得到增强,另一方面也引入更高的数据存储计算成本并且给机器学习等相关算法的学习提出了更高的挑战。研究人员近年来提出多种方法处理高维数据,其中代表性技术包括数据降维和特征选择。特征选择技术根据是否依赖数据真实标签大致分为有监督、半监督和无监督三类。无监督特征选择方法在进行特征选择时不依赖真实数据标签,因此有着较为广阔的应用前景并对算法提出更高的挑战。近年来研究人员提出大量的无监督特征选择算法其中主要包括过滤式和嵌入式等两大类方法。一般来说,过滤式方法超参数较少,算法实现较为简单,性能较为有限;而嵌入式方法通常涉及较多的超参数,算法过程相对复杂,经过仔细调参后性能较高。尽管无监督特征选择领域近年来已经提出了多种方法,但是这些算法依然存在一些缺点:(1)现有算法普遍采用基于向量的表示进行特征选择。当数据存在低质量特征时基于向量的数据表示对数据邻域结构进行的细粒度刻画使得现有特征选择方法容易受到干扰。(2)由于缺少标签信息指导特征搜索,无监督特征选择算法的超参数搜索和调优在实际应用中可行性较差。针对以上两个问题,本文提出了两种新的无监督特征选择算法。本文的两个算法都以英文论文的方式发表于被EI检索的国际会议和被SCI2区检索的国际期刊。具体如下:(1)提出了特征级LLE构图的过滤式无监督特征选择算法。为了刻画数据基于所有候选特征的内在结构,该算法在以所有特征为输入的情况下采用局部线性嵌入的方法构建全局性的邻近结构图。为了刻画单个特征的表示能力,该算法以单个特征为输入并且同样采用局部线性嵌入的方法构建面向单个特征的邻近结构图。至此,该算法既获得了基于所有特征的局部邻近图也获得了基于单个特征的局部邻近图。该算法通过基于全局特征的邻近结构图与单个特征的邻近结构图之间的差异来刻画单个特征对数据整体内在结构的表征能力。此外,该算法进一步通过局部线性加权的方式用相似特征的邻近结构图进一步提高算法的鲁棒性和普适性。值得指出的是,该算法属于过滤式无监督特征选择算法。与现有过滤式方法差异之处主要在于该算法采用了特征级LLE构建的邻近结构图对数据结构进行表示而不是传统的基于向量的数据表示。基准实验结果表明该算法的性能要优于主流的过滤式特征选择算法。(2)提出了特征级邻近图重建的嵌入式无监督特征选择算法。该算法分别以所有候选特征和单个特征为输入数据,并采用K近邻算法构建基于所有特征的邻近结构图和基于单个特征的邻近结构图。该算法通过采用特征级邻近结构图线性加权的方式来重构基于所有特征的邻近结构图,并采用线性加权的权重来刻画特征的表征能力。与本文提出的上个方法类似,本算法同样将采用特征级构图的方式反应特征的表征能力。该算法采用的特征图线性重构的特征权重学习方式一方面刻画了单个特征邻近图与基于所有特征的邻近图之间的相关性,另一方面也刻画了特征之间的冗余性。因此,该算法是特征表征能力在相关性和冗余性上的一种平衡。此外,该算法可以获得全局最优的特征权重,并且不需要设置相关超参数,即本算法是无超参数的嵌入式无监督特征选择算法。基准数据集上的实验结果表明本算法要优于主流的无参数无监督特征选择算法。综上,本文围绕特无监督特征选择这一数据挖掘领域的基础问题展开研究,通过采用对单个特征构建邻近图的学习策略来反应单个特征对数据内在邻近结构的刻画能力,先后提出了对应的过滤式和嵌入式无监督特征选择算法。值得注意的是,本文提出的基于特征级邻近图重建的嵌入式无监督特征选择算法在充分平衡特征相关性和冗余性的基础上获得全局最优的特征权重,并且整个算法无需设置额外的超参数。鉴于上述特点,本文提出的算法在实际中将有着一定的应用价值。