论文部分内容阅读
随着互联网技术的快速发展和广泛应用,信息资源增长的速度越来越快,媒体数据的呈现方式也越来越丰富,由单一的文本表示扩展为文本、图像、音频、视频、3-D模型等多种表现形式。不同模态的媒体数据从不同的角度共同描述同一事件,表现能力更强。人们期望可以实现不同模态的媒体数据之间的交叉检索,即提交一种模态的媒体数据,通过查询检索出基于相同语义的不同模态的媒体数据。由于数据特征的表达方式不同,不同模态的媒体数据在原始底层特征上彼此异构,无法直接进行相互检索。如何深入地分析不同模态的媒体数据之间存在的联系,在不同模态的媒体数据之间建立关联,进而衡量不同模态的媒体数据之间的相似性,这就成了跨媒体检索的重点。本文主要从媒体数据的底层特征出发,充分分析媒体数据之间的相关关系,提出两种不同的跨媒体检索算法,并在几种常用的基准数据集上进行了实验,实验结果证明了所提出算法的有效性。本文的主要工作及创新点概括如下:1.提出一种基于联合图正则化和模态分析的跨媒体检索算法(A Cross-media Retrieval Algorithm via Joint Graph Regularization and Modal Analysis,JGRMA)。该方法主要是通过学习数据对之间的一一对应关系,相同模态媒体数据之间的相关性及不同模态的媒体数据之间的相关性,来构建一个统一的框架,通过学习映射矩阵,将不同模态的媒体数据投影到一个同构子空间中。在该过程中,区别对待不同的检索任务,只考虑查询对象的语义,使得学习到的映射矩阵更具有针对性。2.提出一种基于判别近邻和类别信息的跨媒体检索算法(A Cross-media Retrieval Algorithm via Discriminant Neighborhood and Class Information,DNCI)。该方法通过利用数据的类别信息来构建更多的相似数据对与非相似数据对。同时根据数据的语义和距离对近邻进行判断,从而区别对待类内近邻与类间近邻,并且为了更好的利用数据的全局信息,结合最大散度差原则,将基于近邻和语义的判别分析保持项加入目标函数中。将所有的媒体数据通过语义回归,映射到语义空间中,进行相似度度量,从而返回基于相同语义的不同模态的最相近的结果。