论文部分内容阅读
科学技术的发展使人类进入了大数据时代,很多行业和领域每天都会产生海量的数据,而对这些数据在可以容忍的时间内进行收集、管理和处理已经超过了传统技术的能力。数据处理最核心的挑战之一是如何从海量的数据中提取出有用的信息和知识为后续决策提供帮助,因此设计高效、高速的可以发现数据潜在模式、相关性以及其它有用知识的数据分析方法就变得越来越重要。由于数据固有的冗余特点,稀疏性和低秩性广泛存在于许多大数据应用中,这为大数据分析及处理提供了新的可能性。尽管大多数数据具备稀疏性,但是这些数据通常并不会在数据域上直接呈现稀疏特点,而是经过某种线性变换之后才稀疏。在很多应用中,信号表征的稀疏度水平可以显著地影响去噪、分类和聚类等应用的性能。因此,研究字典学习,即从数据中直接学习得到一组变换基使得数据在这些变换基下是最稀疏的,就显得很有意义。除了稀疏性,数据也常常呈现低秩性。人们可以利用数据的低秩特点对数据进行因子分析或特征提取等处理,然而由于实际应用中,数据普遍存在非完备的特点,导致许多传统的分析算法无法适用。因此,研究数据缺失条件下如何对数据进行补全和分析具有很高的学术和应用价值。针对上述问题,本文首先研究信号稀疏化。目前的信号稀疏化方法,即字典学习,以确定性方法为主,算法交替进行稀疏表征和字典更新两个步骤。在稀疏表征过程中,这些算法通常需要预先知道信号的稀疏度或噪声能量的强弱,来设置一些比较关键的参数。然而在实际应用中,人们很难直接获取信号稀疏度和噪声方差信息,而不合适的参数往往会造成严重的性能损失。针对这一问题,本文对字典学习问题在概率的框架下进行建模,将所有参数包括噪声大小等视为随机变量,并添加无信息先验,使算法可以根据数据自适应地学习这些参数的大小。另一方面,不同于现有的贝叶斯字典学习方法,本文所提出的算法将稀疏表征和字典更新相融合,避免模型陷入到局部最优解中。本文其次研究低秩矩阵填充问题。现存的低秩矩阵填充问题可以大致分为贝叶斯方法和确定性方法两类。相对于确定性方法而言,贝叶斯方法通常无需设置参数,并且性能优异。然而目前的贝叶斯方法大多基于矩阵的分解模型,即假设未知矩阵可以分解为两个因子矩阵的乘积,将矩阵的秩最小化问题转化为寻找结构稀疏的因子矩阵的问题。这类方法的弊端是人们无法再利用原始低秩矩阵的其他性质,同时贝叶斯方法往往伴随着较高的运算复杂度。为了解决这一难题,本文提出了一个双层先验模型,该先验模型并不依赖于矩阵分解,而是直接对原始低秩矩阵施加低秩促进先验。因此,该模型可以同时发掘数据的低秩性和其它特点,例如平滑性等。为了降低模型的计算复杂度,本文引入了广义近似消息传播来求解其中的低秩矩阵估计问题。相较于其它贝叶斯模型,本文所提出的模型性能更优,速度更快。本文继而研究非完备张量分解问题。不同于矩阵的秩,张量多线性秩更为复杂,从矩阵低秩分解并不能简单地拓展到张量的低秩分解。在本文中,我们提出了一个子张量的概念,将核心张量的维度最小化问题转化为核心张量的结构稀疏问题。为了促进核心张量的结构稀疏,我们对每一个子张量施加了一个对数和惩罚项。由于张量中的每个元素都同时属于多个子张量,因此我们利用Majorization Minimization方法,通过不断优化代理函数来求解原始的优化问题,最终设计了一个迭代重加权张量低秩分解方法。本文最后研究数据聚类问题。数据在空间中呈现聚集性是数据稀疏性和低秩性的重要补充。本文将传统基于模型的聚类算法和基于相似度的聚类算法相结合,依托变分自动编码机的框架,设计了基于图嵌入的变分混合高斯自动编码机算法。具体来讲,通过将变分自动编码机中的高斯先验替换成混合高斯先验,使得算法具有了基于模型的聚类算法的优点,另一方面,通过促使在图上有连接的数据具有相似的特征,来使得算法可以融合相似度信息。该算法首次将基于模型的聚类算法和基于相似度的算法相结合,获得了较好的聚类性能和较强的泛化能力。