论文部分内容阅读
随着信息科技的发展,对大数据的分析和预测已经在学术界和工业界引起了广泛地关注。大数据不仅具有大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)的5V特点,更重要的是高维度。数据维度过高可用的数据信息有限往往不仅会造成数据采样不足的问题,而且更容易被噪声所污染,导致所建的模型很难发现数据中所隐含的规律,推广性差等。如何对这些高维度数据进行有效地建模,从而挖掘数据的潜在规律,进一步对未知的空间进行预测,是一个非常重大的挑战。大量的研究和理论证明,高维数据并不是毫无规律可寻,通过合理的稀疏或低秩假设,我们可以挖掘数据样本之间的关联性以及数据各维特征之间的关联性,从而做出明智的决策和推理。但是,由于数据本身可能存在各种形式的噪声污染,如高斯噪声,稀疏随机噪声,特定样本噪声、异常样本等,这会导致数据不同程度地偏离所属的子空间,给数据分布估计、数据分类、数据预测等应用带来巨大挑战。本章将低秩矩阵分解应用到高维数据分类以及去噪等问题中,并针对其中存在的运算复杂、可分性低、无法利用已知的标签信息等极具挑战性的问题,进行了深刻钻研,并提出了更为简练本质的鲁棒低秩矩阵分解模型和半监督低秩学习分类模型。低秩矩阵分解在图像处理和计算机视觉领域最典型的应用就是背景建模,使用低秩矩阵分解不仅能够比较完整地恢复出背景画面,而且能够将运动目标提取出来。但是,由于背景通常存在一些幅度较小的震荡和光照变化等,导致虚警和鬼影。针对这些棘手的难题,本章利用泊松因子分解理论,从运动目标的空间连续性,模型参数自适应等角度出发,经过深入研究提出基于贝叶斯分层建模的鲁棒低秩矩阵分解。本论文的主要工作概括如下:(1)针对基于低秩关联图的半监督分类算法中运算复杂度高,提取出的低秩表示在类间的可分性低,且稀疏约束与低秩约束之间存在南辕北辙的冲突,造成算法收敛速度降低等问题,提出了一种基于稀疏一致性约束的低秩表示方法,稀疏一致性约束是一种二维结构的稀疏性度量,它不仅要求各个样本的隐表示是稀疏的,同时还要求相似样本的隐表示的稀疏模式也相似,即系数模式的稀疏性。该方法能够在稀疏化低秩表示矩阵的同时考虑到样本之间的关联性,与低秩约束保持相辅相成的作用,不仅提高了数据的类间可分性,同时还加快了算法的收敛速度。实验验证,提出的方法能够在受噪声污染严重的数据集上得到令人满意的分类效果。(2)针对基于低秩关联图的半监督分类算法中,分类环节对有标签样本的分布敏感,并且低秩关联图的构造过程与最终的分类结果没有直接关联等问题,提出一种基于图拉普拉斯约束的半监督低秩学习分类方法。通过给观测样本在原始空间分布和类标预测空间分布强加相同的低秩关联性,充分利用已知的标签信息来指导低秩关联矩阵的构造过程,使得分类过程和关联矩阵的优化过程相互迭代自适应达到最优的分类效果。(3)在图像显著性检测中,图像背景中时常会含有色彩鲜艳但和显著性目标相比分布较为分散的伪目标,为了将这些伪目标与真正关注的显著性目标区分开,提出了一种基于全局对比性和局部一致性正则的低秩矩阵分解方模型,将超像素边缘连接准则及显著区域的分散度等有效的先验知识结合到低秩矩阵分解模型中,形成一个能够对数据自适应的稀疏约束准则。实验结果证明这种自适应于数据的稀疏约束有效地压制了那些与图像边缘紧密连接和在背景中比较分散的伪目标,提高了显著区域检测的命中率;(4)运动目标检测是目标识别、目标跟踪和行为认知等应用的关键技术,针对已有的低秩矩阵分解方法在运动目标检测中的性能很容易受到光照条件变化以及背景中小幅度运动的影响这一挑战性问题,提出了一种基于贝叶斯分层建模的鲁棒非负低秩矩阵分解模型,不仅考虑了运动目标的空间连续性和紧致性,同时对低秩项和稀疏项给出了合理的先验及超先验,省去了在不同数据集上需要调整参数的麻烦。实验验证,提出的模型不仅能够提取出光滑连续的运动目标,而且具有较好的保持低秩背景细节信息的能力。(5)针对低秩矩阵分解的批处理模式无法满足运动目标检测的实时性要求这一挑战性问题,提出一种在线低秩矩阵分解模型,通过学习一个与低秩矩阵分解的生成过程相对应的映射过程,使得矩阵的分解可以直接在每个样本上进行,从而达到运动目标检测的实时性要求。该模型可以采用Mini-batch的训练模式,因此可以方便地对大规模数据进行处理。由于使用观测数据进行映射存在模型自由度过大收敛不稳定等问题,对模型修改使用基于残差的投影方式,降低模型复杂度的同时加快了算法的收敛速度。