论文部分内容阅读
机器学习从有限的观察样本概括特定问题世界的模型,离不开数据分析工具的支持,以发现观测数据中隐含的各种关系。典型相关分析(CCA)是研究存在于两组变量之间相关关系的有力工具。作为一种多元数据分析方法,CCA自1936年问世以来,在回归建模、图像分析与处理、计算机视觉、模式识别和生物信息学等领域得到了广泛的应用,并日益受到各领域有关研究者的重视,而多模态识别技术的兴起又为基于CCA的模式识别方法的研究提供了新的契机。本文以CCA数学模型为研究对象展开深入的扩展研究,致力于用增强的CCA模型来解决机器学习中两种主要的学习问题:模式识别与回归建模。本文的创新性研究成果总结如下:(1)提出了一个非线性CCA模型,将一个非线性问题划分为一系列线性子问题的组合,用以解决实际中大量存在的非线性相关问题,并通过数据可视化实验和姿态估计实验验证了算法的有效性。(2)建立了一个CCA单模态识别的统一框架,揭示了“样本-类标号”方式的CCA与线性判别分析之间等价性产生的潜在机理;在此基础上,提出一个基于样本分布的软标号CCA,打破了这种等价性限制,提高了算法的识别性能。(3)提出了一种新的有监督学习方法-判别型CCA,该方法引入样本的类信息,并充分考虑了样本之间的相关关系及其对分类的影响。利用核技巧,进一步提出了核化的判别型CCA,用以解决较为复杂的线性不可分问题;实验表明这两种方法具有较高的识别性能。(4)在判别型CCA基础上,提出了一种有样本缺失的判别型CCA,用以克服实际中由于各种原因导致的样本缺失问题,该方法继承了判别型CCA的优点,且具有识别性能较好、节约时间和内存、对缺失样本数目相对不敏感等优点。(5)CCA将相关性作为样本间相似性度量。将这种思想推广到主成分分析(PCA),提出了基于相关性度量的伪主成分分析。在此基础上,将这种思想方法推广到近年来提出的基于二维模式的PCA算法家族中,使之成为有监督学习方式。此外,在不改变PCA原有算法框架的基础上,提出了引入类信息的PCA。实验表明这两种有监督PCA具有较好的分类效果。