论文部分内容阅读
随着互联网及物联网技术的快速发展,在科学研究以及日常生活等方面产生的数据都是成千上万甚至更多维的高维数据。其中,高维特征的数据中含有重要的特征、冗余的特征、不重要的特征甚至是噪声特征。数据分析的目的是从大量数据中获取有意义的数据,从而完成相应的聚类或分类等任务。然而,数据的爆发式增长给传统的数据分析方法带来了时间和空间上的更高要求。因此,需要采用降维方法对高维数据进行预处理,得到低维空间下的纯净数据。近年来,许多基于稀疏回归的特征选择算法被提出。然而,这些特征选择算法仍然存在一些局限性,比如对嵌入维度敏感,稀疏性不足,对数据信息利用不足等。因此,本文针对这些方面进行了一些改进,以克服现有算法模型的不足。本文的贡献主要包括如下几点:(1)提出一种基于非负矩阵分解和正则化稀疏回归的无监督特征选择算法(JMFSR)。JMFSR算法旨在找到更合适的伪类标索引矩阵。首先,该算法采用带有正交约束的非负矩阵分解学习基于部分的数据表示。然后,通过正则化稀疏回归模型学习一个特征权重矩阵。另外,该算法引入了l2,1范数同时对稀疏回归项和特征权重矩阵施加约束,从而能够有效的选择具有代表性的特征子集。(2)提出一种基于自表示稀疏回归和局部相似性保护的无监督特征选择算法(UFSRL)。UFSRL算法旨在克服一般特征选择算法对嵌入维度敏感和稀疏性不足的问题。首先,该算法是对原始数据本身进行稀疏重构,而不是拟合低维嵌入。其次,该算法采用了流形学习方法保护数据的局部相似性。另外,该算法采用了l2,1/2矩阵范数对系数矩阵进行约束以保证系数矩阵的行稀疏性,使得UFSRL模型稀疏性和对噪声的鲁棒性更好。(3)提出一种基于自表示和非负矩阵分解的混合图正则化特征选择算法(SRMFMR)。SRMFMR算法旨在解决一般特征选择算法对数据信息利用不足的问题。首先,该算法在自表示回归模型基础上对自表示矩阵进行非负性分解,得到一个新的特征选择矩阵和一个系数矩阵。其次,SRMFMR采用一种混合图模型,即分别在样本空间构建全局图,在特征空间构建局部图,这样能够使模型有效保护数据空间的全局信息和特征空间的近邻相似信息。