论文部分内容阅读
随着PC互联网技术、社交网络以及移动互联网等信息技术的飞速发展,在信息交流和媒体传播的网络空间中涌现出大量的多模态数据,如:图像、文本、音频、视频等。如何有效地对这些多模态数据进行语义相关分析和相似性度量以及实现模态之间的相互匹配已经成为人工智能领域又一个新的研究热点。多模态数据虽然具有类似的语义,但是通常具有不同的物理意义、不同的维度、不同的概率分布,给模态之间的匹配带来很大的挑战。低秩矩阵近似,作为一种常用的机器学习方法,已经成功的应用于数据的降维以及特征表示上。其中,非负矩阵分解(Non-negative Matrix Factorisation,简称NMF)由于其提取的因子的非负约束可以增强物理的解释性,受到了越来越多的关注。NMF除了可以显著降低数据维数,提高解的鲁棒性之外,还可以利用所学习的字典充分表示数据的局部和内在结构。借助NMF的强学习能力,目前已经有很多的NMF改进版本成功的应用于跨模态检索当中。另外,哈希技术由于其较低的存储要求和令人叹服的检索效率,也已经成功的应用于跨模态检索当中。因此,本文以跨模态匹配为目标,借助矩阵分解技术对模态相似搜索进行了深入研究,主要的研究成果如下:1.设计了一种基于语义信息的不平衡协同矩阵分解模型(Semantic Convex Matrix Factorization,简称SCMF)。主体思想是对模态维度较高的数据进行经典的非负矩阵分解,提取一个中间水平的特征,而不是直接提取高层的语义特征,以防止有用的特征信息的丢失;而对于模态维度较低的数据,结合语义信息直接提取该模态的高层语义特征;然后将提取的高维度模态中间水平的特征再映射到共同的语义空间中,以实现不同模态之间的相似性度量,达到较好的跨模态匹配效果。2.提出了一种带有多模态图正则项的协同平滑矩阵分解哈希框架(Multi-modal graph regularized Smooth matrix Factorization Hashing,简称MSFH)。在协同矩阵分解模型中插入由参数控制的平滑矩阵来实现各个模态的字典以及所提取的共同特征的稀疏化;并且在无监督学习的情况下,利用对称非负矩阵分解重构了各个模态之间的相似图,来提高模态匹配的准确性;然后利用共同学习的哈希函数将所提取的共同特征进行二值化,从而快速的实现模态间的相似搜索。3.提出了一种离散的协同矩阵分解哈希模型(Discrete Matrix Factorization Hashing,简称DMFH)。该模型基于各个模态的几何结构信息含有更强的语义判别信息这一优势,对各个模态的近邻相似图实施矩阵分解,直接提取各个模态离散的共同哈希特征表示,克服了由哈希松弛所带来的量化损失;并借助Stiefel流形设计一个简易新颖的更新算法,以一种封闭的形式直接学习哈希编码书,在降低了计算复杂度的同时也提升了模态间的相似搜索的精度。4.针对DMFH模型学习缺少语义标签这一缺陷,将DMFH扩展成语义增强的离散协同矩阵分解哈希模型(Semantic enhanced Discrete Matrix Factorization Hashing,简称SDMFH)。SDMFH首先利用语义标签构建模态间的相似矩阵,并对该相似矩阵进行矩阵分解来提取多个模态的共同离散哈希表示,然后将语义标签回归到所提取的离散哈希书上,从而加强所学习的离散哈希书的判别能力。在已有的公共数据集上的实验结果验证了该算法的有效性。