论文部分内容阅读
数据是数字经济新时代中最大的资源,已经受到学术界、企业界和政府部门的高度重视,数据科学研究的核心问题就是“如何从大规模高维数据集中提取有价值的信息”.数据降维是高维数据分析的重要手段,通过数据降维可以实现数据可视化,发现数据中有意义的潜在结构,降低计算复杂度,获得更有利于分类或者聚类的数据表示.围绕数据降维这一主题,本文从几何的角度对数据降维中的线性算法进行研究,即将高维数据集看作是分布于高维欧氏空间中的点,数据集中样本点之间的关系可以通过欧氏距离或者其他基于相似性度量的方式来刻画,并采用图结构对数据中的几何结构和判别结构进行建模,从而将数据降维问题转换为图嵌入的问题,主要工作包括:(1)对高维数据空间的几何性质和统计性质进行综述,并通过实验分析样本点之间的距离度量对KNN和Kmeans算法性能的影响.实验结果表明分数范数的距离度量可以降低“度量集中”效应,从而提高KNN和Kmeans算法性能.(2)提出了一种基于流形假设的高维数据本征维数估计方法.高维数据集可以看做是分布在低维的流形上,因此可以根据高维数据局部几何结构关系来近似确定低维流形的维数.由于每个样本点处的局部超球内所包含的样本点个数,与其超球的半径成比例,根据这一几何关系,在每个样本点局部邻域内,通过选取不同的近邻参数构建出局部本征维数的显式表达式,由此近似估计高维数据集的本征维数.与传统的本征维数估计方法,如相关维数、最大似然估计和测地最小生成树相比,该方法计算简单,且对噪声和近邻参数选择不敏感.(3)提出了边界Fisher分析的两种改进算法.边界Fisher分析是一种经典的有监督线性降维方法,被广泛用于高维数据的模式分类.由于边界Fisher分析算法中涉及到矩阵求逆的运算,在数值计算中会产生矩阵的奇异性问题,尤其当样本的个数小于样本的维数时,导致所谓的“小样本问题”.采用主成分分析方法对样本数据进行预处理可以克服奇异性问题,然而可能会损失样本的某些判别信息.针对此不足之处,根据矩阵指数的非奇异性,对边界Fisher分析中的散度矩阵进行矩阵指数变换,从而克服了矩阵求逆中的奇异性问题.理论分析表明,该方法等价于零空间上的边界Fisher分析,有效利用了类内散度矩阵的零空间上的信息,因此其判别能力得到了增强.正则化边界Fisher分析是对高维数据中的局部差异信息、类内相似性和类间可分性进行数据建模,并采用正则化方法将其归结为迹差优化模型,在保持数据的真实几何结构的同时,增强投影矩阵的判别能力.(4)提出了一种有监督的线性降维算法——边界判别投影算法.边界判别投影算法首先将每类样本中距离最远的两个样本点看作是同类边界样本点,属于不同类的样本点中距离最近的两个样本点看作是异类边界样本点,然后以最小化同类边界样本点对应的低维表示之间的距离、最大化异类边界样本点对应的低维表示之间的距离为优化目标,同时限定投影方向相互正交的,从而增强低维表示的判别能力.在数据建模时,分别讨论了迹差准则和迹比准则下的边界判别投影算法,另外为了融入样本点的局部差异信息,考虑了正则化的边界判别投影算法,最大限度的挖掘高维数据中蕴含的判别结构和几何结构.人脸灰度图像数据经过向量化表示之后是典型的高维数据,为了提取有利于识别的图像特征,本文在实验环节采用数据降维算法进行特征提取,并对低维特征表示采用最近邻方法进行分类.标准测试数据集上的人脸识别实验验证了本文所提出的算法在判别特征提取方面的有效性.