论文部分内容阅读
在面对高维度数据的实际问题中,为了解决”维度诅咒”问题,提高数据分析精度,我们需要找到数据有效的低维表达。通过对数据几何分布的分析,基于流行学习的降维在实际应用中取得了成功,有效的避免了高维数据所带来的问题,并使得流形学习在机器学习和相关领域迅速发展。然而,流形算法领域仍然存在不少问题等待解决。例如,大多数流形学习算法的映射和后续的学习模型没有直接联系,在降维中,并不知道映射会如何影响后续模型的学习效果。其次,许多线性流形降维算法在处理非线性的数据时会失去效果。除了以上提到的两点,在利用流形学习进行降维的过程中,计算复杂度往往成为实际应用的瓶颈。 论文围绕基于流形学习的降维展开,并尝试解决以上提出的流形算法中存在的问题。主要工作包括以下几个方面: 1.提出直接提高模型学习效果的基于流形的特征选择算法。通过结合流形学习以及最优实验设计理论,我们提出的特征选择方法能选择出有利于提高模型学习效果的特征点。该算法假设数据点分布在潜在流形之上,考虑原始数据包含的几何分布和区分性信息,通过求解使模型预测值最大方差最小化的优化问题,选择数据点。由于该问题最后的求解属于NP问题,我们还介绍了有效的贪婪算法求解该优化问题。在此之前也有其他基于最优实验设计和半正则化流形算法的特征选择算法,一般是通过最小化预测模型中参数的协方差来选取特征的。和他们相比,我们的算法直接对目标函数的预测值最大方差的上界进行最小化,对学习效果的影响更为直接。在数据集上用该算法选择特征之后的聚类实验证明了算法的有效性。 2.为了解决基于流形的非负矩阵分解计算复杂度过高的问题,本文提出了新的加速算法。和原始的非负矩阵分解算法相比,保局非负矩阵分解算法(LocalityPreservingNon-negativeMatrixFactorization,LPNMF)由于利用了数据的流形几何信息能够更好的揭示数据主题,具有更强的数据表达能力。然而,LPNMF的计算复杂度为O(n3),n为数据点个数,当数据规模增加,计算时间将成倍增加。受半监督式学习规模化以及大规模谱聚的启发,我们提出了LPNMF的加速算法。给定大小为n的数据点,我们选择p(p<<n)个锚点数据,并用选择的锚点数据的稀疏表达来表示原始大数据。同时,通过新的表达,在计算迭代过程中,使用Woodbury转化公式减少矩阵计算的时间。从而有效的减少了LPNMF的整体计算时间。实验证明,在大型的文本数据上新的加速算法降维后和原来的聚类效果一样,所用计算时间比原算法快2-3倍。 3.对原有的线性流形映射算法进行核方法化。我们将原有的线性映射方法扩展到再生希尔伯特的核空间上,即将数据点映射到另一个数据空间,使他们在新数据空间的分布变得易于区分,再进行普通的学习训练。同时,各种不同的核函数可以将原线性算法构造成不同的非线性算法,拓展了原始算法的应用范围。实验证明,在人脸以及数字识别图像上,新的基于核方法的映射比原来的线性映射方法表现更好。