论文部分内容阅读
随着现代信息技术的高速发展,人们在日常生活中可以通过各种传感设备和计算机网络方便地获取所需的数据和信息。有效地处理高维数大规模数据,成为当下亟需解决的主要问题。认知科学和神经生物学的研究结果表明流形学习方法和稀疏表示方法对于处理高维数大数据问题具有潜在的研究价值和巨大的应用价值。本文基于近年来模式识别领域中的前沿方向流形学习理论和稀疏表示理论,以维数约减问题及模式分类问题为背景,开展了高维数流形学习,多流形假设下的数据建模和基于流形的稀疏表示优化等三方面的研究工作。本文的主要贡献和创新点如下:(1)通过流形假设,将非参数判别分析(NDA)方法扩展为一种半监督学习方法。在扩展的半监督框架下,半监督非参数判别分析(SNDA)方法可以同时充分利用无标记样本数据和标记样本数据,所以在一定程度上克服了传统非参数判别分析方法的高维数小样本问题。此外,基于流形假设的SNDA具有挖掘数据潜在流形结构并在低维投影中尽可能保持数据局部几何属性的功能。SNDA同时具有NDA的判别能力的优势和流形学习的局部几何保持的优点。SNDA继承了NDA方法的固有优点,即放松了传统LDA算法需要数据样本符合高斯分布的假设。因此与基于LDA的半监督扩展方法SDA相比,SNDA和非线性流形结构具有更好的耦合性,更适于对具有明显非线性结构数据的处理。(2)在半监督学习的背景下,明确提出了多流形假设下的混合流形分类问题。混合流形分类问题假设观测样本数据采样于多个复杂的流形结构中,这些流形既包含线形结构的,也包含非线性结构的;既存在相互良分离的流形,也存在相互交叠的流形。混合流形分类问题涵盖了现有流形分类研究的所有方面,是异常困难而富有挑战性的研究方向。我们通过细致分析,指出半监督混合流形分类的难点在于准确区分流形交叉区域的数据和有效的建模潜在的非线性流形结构。本文分析了现有的半监督多流形学习算法在处理混合流形分类问题时的潜在问题和在实际应用中可能导致性能退化的原因,并提出了可行的解决途径和方法:多流形半监督高斯混合模型(M2SGMM)o M2SGMM利用半监督高斯混合(SGMM)来全局建模潜在的非线性流形结构;通过流形局部切空间的主角度来度量局部相互交叠的流形之间的几何结构相似性。我们构建了具有局部和几何一致性的相似图,来离散近似潜在的混合非线性流形结构。这个增强图本质是稀疏的,并且可以被其他基于图的半监督学习算法使用。M2SGMM继承了生成模型的优点,本质上属于归纳方法,可以对外样本数据进行分类,很容易处理多类数据。我们将M2SGMM和有代表性的半监督分类方法:半监督高斯混合模型,调和混合方法,局部和全局一致性方法,拉普拉斯正则化支持向量机和多流形半监督学习方法进行实验比较。基于模拟数据和现实数据的大量实验均验证了M2SGMM在混合流形分类问题上的有效性。(3)针对稀疏表示l1构图的高计算负担问题,本文在无监督维数约减问题的背景下,提出一种子流形稀疏保持投影(SMSPP)方法。传统的粤1构图方法将所有训练样本作为冗余字典的原子,在稀疏编码的过程中并未考虑数据的流形结构信息,且计算复杂度极高。SMSPP根据流形结构信息裁减冗余字典,使字典中保留最具流形判别信息的数据。SMSPP可以通过调节包含流形信息的字典容量的大小,在粤1构图计算时间和次优的识别性能之间做出平衡。SMSPP算法可以看作是稀疏保持投影(SPP)算法的扩展,当字典容量为全体训练样本大小时,SMSPP算法等价于SPP算法。大量的实验结果表明,SMSPP算法可以在接近使用全体训练样本作为冗余字典的识别性能的同时,大幅度减少l1构图的计算时间。