论文部分内容阅读
互联网图像的爆炸性增长为用户提供了丰富的图像资源,如何从海量的图像资源中获取自己感兴趣的图像成为迫切需要解决的问题,基于内容的图像检索是解决上述问题的有效手段。有别于传统的基于文本的图像检索,基于内容的图像检索直接使用图像作为查询对象,在图像库中检索后返回给用户相似的图像。虽然目前已有众多学者对其有所研究,但大多研究成果仅适用1M以下小规模图像库,扩展能力弱。本文针对大规模基于内容的图像检索中的关键技术进行了深入研究,取得了如下研究成果: 1.融合空间信息的VLAD特征 传统的VLAD(Vector of Locally Aggregated Descriptors)特征仅使用局部特征本身,而并未考虑局部特征的位置等重要信息,区分能力存在不足。由此本文提出了基于空间金字塔的VLAD特征,该方法使用空间金字塔对图像的局部特征进行分层聚合,在一定程度上保留了局部特征的空间信息。并通过实验表明,本文提出的方法与VLAD相比,在Holidays数据集上,mAP提升达到5.4%;在Oxford5k数据集上,mAP提升达到14.2%。 2.基于GPU的VLAD-GPU算法 为了应对大规模数据处理的实时需求,通过研究VLAD特征的并行化计算策略,实现了基于GPU平台的VLAD-GPU算法,大大降低了VLAD特征的提取时间。实验表明,在常用图像尺寸640×480和常用VLAD视觉词典大小k=128时,VLAD-GPU比VLAD-CPU速度平均提高了4倍。 3.大规模图像/视频检索系统 系统主要由检索子系统、采集子系统和WEB客户端三部分组成。其中检索子系统使用了分布式的架构,保证了系统的检索速度和处理大规模数据的可扩展性。为验证上述成果在大规模图像检索中的应用效果,构建了规模高达1亿张的图像数据库。在此图像库上,通过采用GPU特征提取技术,单幅图像特征提取平均耗时13.98ms,速度提高了20倍左右;平均F1值为0.586,单幅图像检索平均耗时为484.98ms。以上研究成果同样可以运用到大规模视频检索中,为此构建了20万小时的视频数据库,在此视频库上,平均F1值为0.878,单帧检索平均耗时为868.79ms。