论文部分内容阅读
随着计算机、互联网、数据采集等信息技术的快速发展及应用推广,“数据”已经逐渐融入当今时代社会生产、生活的各个领域,人们可以更加方便快捷地获取相关的研究数据或生产、生活信息,同时也导致了数据库中数据规模越来越大、数据类型逐渐多样化、数据结构趋于复杂化、数据价值密度较低。如何从这些高维、海量、结构复杂、信息冗余较大的数据中提取出对识别、分类或检索等实际应用更有效的信息,即数据降维算法的研究,成为数据挖掘、机器学习、模式识别等领域的重要研究内容,对进一步实现更加准确、快速的数据分类或信息检索等具有重要意义。针对现有数据降维算法存在的问题和不足,本文从新的思维角度出发,深入研究面向高维复杂数据的降维算法,主要工作和贡献总结如下:首先,针对单一的数据降维算法提取的低维特征判别性能有限的问题,本文提出了一种基于密集子图检测的维度选择算法。该算法以现有数据降维算法得到的低维数据特征集合为处理对象,定义维度选择的判别性保持准则和独立性保持准则,然后将维度选择准则嵌入到图模型中,通过检测图模型中相关性最强的密集子图实现判别性维度的二次选择。该算法综合多种传统数据降维算法的优点,能够适用于高维复杂结构数据的判别性低维特征提取。其次,本文提出了一种局部判别性广义特征向量提取算法。该算法基于信噪比函数构造数据降维模型,首先在每个训练样本的局部近邻区域内定义局部信号和局部噪声,其次根据不同的局部信号和局部噪声组合形式,构造不同的信噪比目标函数,从而将多分类数据降维问题简化为“一对多”或“一对一”的二分类数据降维问题,然后通过广义特征分解求得使信噪比最小的特征投影方向,最后引入非线性变换构造算法的分层结构。该算法直接通过近邻样本间的欧氏距离进行判别性度量,克服了对高斯分布先验假设的依赖性,将多分类数据降维问题进行简化,使提取的每一维特征都具有直观合理的解释,分层结构的引入能够挖掘潜在的非线性信息。最后,本文提出了一种基于吉布斯采样的结构化PFC算法。该算法是一种无监督的数据降维方法,首先通过聚类分析获得原始数据的聚类信息,其次对聚类中心进行低维流形结构学习,保持数据在高维观测空间中的全局分布结构,然后构造聚类中心与训练样本之间的近邻关系矩阵,保持数据的局部相似性关系,最后利用聚类中心的低维流形嵌入和近邻关系矩阵对PFC模型进行结构化约束,并通过吉布斯采样优化模型参数,计算特征投影矩阵。该算法既利用了原始数据的局部近邻信息,又保持了数据的全局分布结构,能够有效提取无监督数据的判别性低维特征。