论文部分内容阅读
随着数据采集技术的不断进步,原始数据的维度变的越来越高。更高维度的数据能获得更多有用信息的同时也引入很多冗余、增加算法的计算复杂度。为了适应日益增长的数据维度和有效处理样本数据,减少数据的冗余,如何从高维度数据中有效的学习到低维度特征是现在数据处理及大数据中迫切需要解决的问题。随着数据采集方式越来越多样化,数据样本的数量越来越多,若对训练样本进行人工标记需要消耗大量的时间成本和人力成本。因此,无监督的数据降维特征学习方法越来越受人们所重视。本文以无监督特征学习算法为研究课题,重点研究了基于稀疏和信息论的无监督特征学习算法,所包含的两大块研究内容如下:第一,本文研究了在基于稀疏建模的无监督特征选择方法的建模及算法设计。首先,特征选择问题被建模成子空间学习模型,并通过在模型中加入稀疏约束来选择出更有用的特征。这部分提出了三种基于子空间学习的特征选择方法:1)为了更有效地选择出特征且消除负贡献对问题的影响,提出了一种基于非负子空间学习模型。为了更有效地挖掘数据内部信息,本文将自适应稀疏性框架ISD加入到子空间学习的过程中,提出了一种非负自适应稀疏约束的子空间学习模型;2)为了充分应用数据内部的信息,本文进一步考虑将数据的局部结构加入到子空间学习的过程中,提出了一种全局及局部结构保持的子空间学习模型;3)在无监督背景下,为了加入判别信息,本文将样本聚类信息作为一种判别信息加入到子空间学习的过程中,提出了一种判别子空间学习方法。第二,本文研究了基于信息论学习的鲁棒无监督特征学习方法。在特征学习中若数据存在局外点,基于Frobenius范数设计的目标函数会受到局外点的严重影响。本文采用信息论学习中最大相关熵准则对目标函数进行建模,提出了两种基于最大相关熵准则的鲁棒特征学习模型:1)为了提高无监督特征选择模型对于局外点的鲁棒性,本文采用最大相关熵准则与局部结构保持子空间学习相结合对无监督特征选择模型进行建模,并提出了基于最大相关熵准则的鲁棒无监督特征选择模型;2)为了提高稀疏主成分分析(SPCA)关于局外点的鲁棒性,本文采用最大相关熵准则对SPCA进行建模。同时为了更加充分的利用样本内部的信息,于是在SPCA模型中加入多超图学习正则项,使模型能够利用样本内部的流形信息,并提出一种基于最大相关熵准则和高阶流形约束的稀疏主成分分析模型。