论文部分内容阅读
人类已经进入大数据时代,图像(视频)作为人类对外部世界感知与认知的信息载体,在大数据中占有举足轻重的地位。随着图像(视频)采集技术的发展,图像的分辨率越来越高,承载的数据量也越来越大,如何对这些数据中包含的有价值信息进行有效降维与表示是模式识别、图像处理和计算机视觉等领域中非常重要的研究课题。 对于图像、视频等张量数据,传统的处理方法常常是将数据向量化,但向量化过程破坏了高维数据中的结构信息,还有可能产生维数灾难。而直接处理张量类型的数据,即可以保留高维数据的空间结构信息,同时由于张量算法的独特性,直接通过张量数据进行学习还可以有效控制优化问题中参量的个数。基于上述考虑,本文在贝叶斯框架下针对张量数据的降维和表示问题开展研究。 针对传统主成分分析(Principal Component Analysis,PCA)类降维方法的局限性,做了以下几方面的研究工作: 第一、提出了一种基于L1范数的二维概率PCA(L1-2DPPCA)降维方法。传统PCA和概率PCA(PPCA)模型都是针对向量数据且数据噪声满足高斯分布的假设,当数据集中存在离群点时,传统方法找到的主方向会严重偏向离群点,偏离数据集真正的主成分。针对这一问题,本文根据离群点的概率分布特性,假设数据噪声服从拉普拉斯分布,提出了针对二维数据的概率降维模型L1-2DPPCA。在模型求解时,由于拉普拉斯分布中对应的L1范数是不可导的,因此可以将拉普拉斯分布近似表示成无限个高斯分布求和的形式,即混合高斯分布。混合高斯分布中的权值系数做为新的隐变量,该隐变量的理论特性决定其可以看作离群点的检测器。实验证明,该模型具有良好的数据降维效果对离群点具有更好的鲁棒性。 第二、提出了一种混合双向的二维概率主成分分析模型(mixB2DPPCA)。传统PCA和PPCA类方法都是一种全局的线性降维模型,对于复杂的数据集,例如有光照、姿态和表情变化的人脸数据集,全局线性降维无法有效的表示这些变化。因此本文提出一种概率框架下的混合双向二维主成分分析模型(mixB2DPPCA)。该模型是通过利用混合高斯分布的形式建立一个分段线性的降维模型,其中每个高斯分布都对应着一个二维线性降维子模型。因此该模型不仅可以利用二维数据的结构信息,而且还可以通过混合高斯分布的特点对给定的数据集预先进行“软”聚类,以提高特征提取的准确性。 第三、提出了高阶张量数据的向量化概率降维模型。对于高阶张量数据,经典的降维方法都是先将张量数据向量化,然后应用向量的降维方法或者利用张量的Tucker分解,这样会破坏原始张量数据的关系结构,或降维后得到与原数据同维的低阶张量,后续应用中难以使用经典的数据分析方法。针对这些问题,受PCA降维模型的启发,本文提出了张量数据的向量降维模型,该模型将高阶张量数据表示成若干个基张量的线性组合,以组合系数作为原始张量的降维表示。模型求解阶段,为了减少模型参数,降低由此带来的存储量和计算负担,假设基底张量满足CP分解的结构,然后利用EM算法对模型进行求解。实验表明,该模型在利用较少的参数下,可以得到更好的识别结果。 针对基于数据学习的特征表示方面,做了以下工作: 第四、针对现有非参数贝叶斯技术的字典学习方法,本文提出了一种利用Beta过程对张量字典进行求解的方法,这种非参数的贝叶斯技术允许噪声的方差是未知的或是非平稳的。文中首先给出了张量字典学习的分层结构,然后利用吉布斯方法对分层结构中的参数进行采样。由于该张量字典是直接在原始张量数据上学习得到的,可以充分利用原始张量数据的结构信息,得到具有分离性的结构字典。视频重构和图像去噪的实验表明了张量字典的有效性和可行性。 第五、经典的RBM各层数据之间是一种向量形式全连接的神经网络结构,当应用到高阶张量数据时,向量化会破坏数据的内部结构,丢失数据中的关系信息,而且由于中间层的全连接性,使得参数的个数增长过快,需要更多的存储空间和计算量。针对这一问题,本文提出具有Tensor Train(TT)结构权值层的张量受限玻尔兹曼机。该模型在保证不影响RBM效果的同时大大降低了中层的自由参数个数。通过调节TT分解的秩,可以得到相同大小的不同特征,使得模型更具有灵活性。