论文部分内容阅读
高维数据通常含有噪音以及冗余。特别是,数据的高属性维度不仅会增加储存空间,而且属性维数在达到某一临界值后,特定数据挖掘算法的性能反而下降,即所谓的“维度灾难”。另一方面,由于资源所限等原因数据的类标签在实际应用中很难获取,因此,无监督的属性约简通过降低无标签数据的维度以解决上述问题,在数据挖掘领域具有重要意义。现有的属性约简方法可分为子空间学习和属性选择。子空间学习比属性选择更高效,但属性选择方法得到的结果更具有可解释性。本文结合子空间学习和属性选择思想提出两种无监督属性选择方法,即从输入的高维数据中选取有意义的属性(也就是说去除属性的冗余和噪音),使得输出的低维数据既能提升数据的学习效果,又具有可解释性。本文具体的内容和创新点为:(1)基于样本自表达方法的成功运用,本文利用属性自表达能力,提出了一种简单而且有效的无监督属性选择框架一基于稀疏学习的鲁棒自表达属性选择算法(SRFS算法)。具体来说,SRFS算法首先采用包含属性自表达的损失函数,将数据每个属性用其他属性线性表示来取得自表达系数矩阵;然后结合稀疏学习的理论(即用系数矩阵的l2,1-范数作为稀疏正则化项)取得稀疏的系数矩阵。在优化所得的目标函数时,稀疏正则化因子导致重要的属性对应的自表达系数值,相对于冗余属性或者不相关属性的值要大,以此区别属性的重要性从而达到属性选择的目的。SRFS算法利用属性自表达的方法,使得每个属性都能被全体属性很好的表现出来,不重要的属性或噪音冗余属性在自表达过程中被赋予很小的权重或零权重。在真实数据的模拟实验中,使用支持向量机(SVM)作为属性选择的评价方法进行分类,分别作用于被SRFS方法和其他属性约简算法处理过的数据,结果表明SRFS优于其他对比算法。(2)传统的属性选择方法通常不考虑属性间的关系,如:数据的局部结构或整体结构。而噪声或离群点会增加数据矩阵秩,基于以上事实,本文结合低秩约束、流形学习、超图理论和属性自表达在同一个框架下进行无监督属性选择,即提出了“基于超图的属性自表达无监督低秩属性选择算法”(SHLFS算法)。具体来说,SHLFS算法首先扩展上述属性自表达理论,即将各个属性用其他属性来表示,然后嵌入一个低秩约束项来去除噪音和离群点的影响。此外,鉴于超图(Hypergraph)能比一般图捕获更复杂的关系,SHLFS算法使用一个超图正则化因子来考虑数据的高阶关系和局部结构,且使用l2,1-范数正则化实现系数矩阵的稀疏性。本文进一步证明了所用的低秩约束导致SHLFS算法具有子空间学习的效果。最终,SHLFS算法既考虑了全局的数据结构(通过低秩约束)又考虑了局部数据结构(通过超图正则化),而且在进行属性选择的同时进行了子空间学习,使得得到的属性选择模型既具有可解释性且性能优异。由于比上一方法使用了更强的约束,且考虑了数据间的关系,SHLFS算法比之前的模型更健壮。在实验部分,使用SVM分类和k-means聚类两种评价方法,在多类和二类数据集上进行实验,经多个评价指标验证,SHLFS方法比对比属性约简方法具有更好的效果。本论文主要针对高维数据的特点,设计新的属性选择方法。具体地说,本文创新的使用属性自表达来实现无监督属性选择,另一方面使用超图模型和低秩约束表示数据之间的高阶关系,并结合稀疏学习理论给每个属性赋予不同的权重以判别属性的重要性。为保证设计方法的有效性,模拟实验部分在多个公开数据集上进行,对比算法包括近几年流行的算法和领域经典算法,使用分类和聚类作为评价方法,分类准确率(ACC)和标准化互信息(NMI)等多个评价指标。实验结果显示,本文提出的方法均获得最优的效果。后续的工作拟探索半监督学习和深度学习框架设计新的属性选择方法。