论文部分内容阅读
九十年代初期,基于内容的多媒体检索一直是计算机领域的研究热点,那时的数据量、数据种类在量级上无法与今天相比,如今的多媒体数据当中,大量的图像与文本经常交织在一起描述具有相同语义的事物。人脑对于外界事物的认知是遵循这样一种规律,不同感官传递的信息相互传递、融合,从而对事物做出综合的判断,这就对多媒体数据的检索提出新的需求,即检索过程、结果要能够跨越不同类型的多媒体数据,如jpeg图片、txt文档等,从而达到一个对多媒体语义整体理解的更好效果。传统的基于特征描述的方法无法进行不同模态之间的互检索,因此,跨媒体检索方法得到了越来越多的重视,它能够处理和查询不同类型的多媒体数据。
针对图片、文本等多媒体数据在底层内容特征上的异构性和不可比性,本文提出了一种基于K-近邻算法的方法用于描述图片与文本之间的相似度。该方法充分利用了sift算子与词频特性挖掘图像与文本的特征,将处于不同空间的图片特征与文本特征映射到相同的特征空间,从而进行相似度计算。
本文详细介绍了经典的图片与文本的特征表示方法、跨媒体检索方法。在此基础上,引入了本文设计的基于词频的文本特征表述方法和用来进行异构特征相似度衡量的K-近邻算法。最后在理论基础上通过程序给予实现,程序的实现平台为Matlab、Eclipse。实验结果表明,该方法可以有效的进行图片与文本的异构特征相似度衡量。基于K-近邻算法的图像、文本互检索方法可以有效的进行图像检索文本、文本检索图像,并且可以扩展到视频、音频等领域,对于跨媒体检索有着重要意义。