论文部分内容阅读
随着互联网进入Web2.0时代,以微博、Flickr、Youtube等为代表的网站已逐渐成为新兴的各种数据产生和共享的平台。伴随而来的是文本、图像、视频和音频等信息的迅速膨胀。在网络中,这些不同类型的数据往往会同时出现,用来表达相同的语义。例如维基百科中的特色文章是通过文本和图像共同表达的,这些信息之间存在互补性和相关性。随着不同类型数据的爆炸式增长,如何对这些不同类型的数据进行“跨模态数据分析”以便更加有效地利用这些数据成为亟待解决的问题。针对这一问题,本文提出了几种跨模态数据分析方法,并将其应用于跨模态检索。本文研究的主要内容如下: 1、跨模态检索的难点是如何度量不同模态数据之间的相似度。为了解决这一问题,提出了一种联合图规则化的多模态子空间学习方法。该方法通过一个联合图规则项利用模态间的相似度和模态内的相似度来建模不同模态数据之间的相关性和每个模态数据内的局部邻域结构。为了得到一个更有区分力的子空间,学习多模态子空间的时候,最大化不同类数据之间的协方差矩阵(每一类包含多个模态的数据),最小化同类数据之间的协方差矩阵。实验结果表明了该方法的有效性。 2、由于数据的底层特征一般都存在冗余和不相关的特征,所以如何在不同模态数据上同时进行特征选择(耦合特征选择)是一个非常重要的问题。为了解决这个问题,提出了一种双空间学习方法,该方法同时进行子空间学习和耦合特征选择。该方法对于每个模态的数据学习一个映射矩阵,把不同模态的数据映射到一个共同的空间中,在这个空间中可以进行不同模态数据之间的相似性度量。在学习映射的过程中,通过对映射矩阵进行l21范数的约束,来对不同模态的数据进行耦合特征选择,选择出那些相关的、具有区分力的特征。同时,对映射后的数据进行低秩约束来进一步加强不同模态数据之间的相关性。为了求解该问题的目标函数,提出了一种基于半二次最小化的迭代求解算法。实验结果表明该方法能取得更好的检索性能。 3、为了在子空间学习的同时,保持不同模态数据之间的相似性关系,提出了一种联合学习方法。该方法的目标函数有三项构成,第一项是耦合线性回归项,目的是学习从不同模态数据的特征空间到共同空间的映射;第二项是l21范数项,目的是选择出不同模态数据中那些相关的和具有区分力的特征;第三项是多模态图规则项,用于保持不同模态数据之间的两种相似性关系:模态间数据的相似性关系和模态内数据的相似性关系。为了求解这一目标函数,提出了一种迭代求解算法,同时证明了算法的收敛性。三个跨模态数据库上的实验结果表明了该算法的有效性。 4、不同模态的数据从不同的方面反映了事物的高层语义,由于不同模态数据的底层特征一般具有异构的特点,存在异构鸿沟。为了弥补不同模态数据之间的异构鸿沟,提出了一种基于联合字典学习的多模态数据统一表示学习方法。该方法通过联合字典学习,对于每个模态的数据学习一个字典,而对于表示同一语义的不同模态的数据,学习统一的表示来弥补不同模态数据之间的异构鸿沟。为了使模型鲁棒,对多模态数据的统一表示使用了l1-范数进行约束,以保证其稀疏性。同时将不同模态数据之间的相似性和不相似性关系通过约束项来约束字典和统一表示的学习。为了求解模型的目标函数,提出了一种迭代求解算法。实验结果验证了该算法的有效性。 5、为了解决大规模的跨模态数据检索问题,提出了一种两阶段跨模态哈希方法。该方法将跨模态哈希问题转换成两个阶段来解决:哈希编码生成和哈希函数学习。在哈希编码生成阶段,根据模态间的相似性关系和模态内的相似性关系,把不同模态的数据放到一个多模态联合图中。如果两个数据之间存在相似性关系,则它们应该有尽可能相近的哈希编码。根据这一原则,设计了一个目标函数来求解多模态数据的哈希编码。然后,把哈希函数的学习看成是一系列二分类问题,通过对二分类问题的优化来求解每个模态数据的哈希函数。实验结果表明该算法有效提升了检索的性能。