基于局部特征聚合的大规模图像检索技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:davidzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网图像的爆炸性增长为用户提供了丰富的图像资源,如何从海量的图像资源中获取自己感兴趣的图像成为迫切需要解决的问题,基于内容的图像检索是解决上述问题的有效手段。有别于传统的基于文本的图像检索,基于内容的图像检索直接使用图像作为查询对象,在图像库中检索后返回给用户相似的图像。虽然目前已有众多学者对其有所研究,但大多研究成果仅适用1M以下小规模图像库,扩展能力弱。本文针对大规模基于内容的图像检索中的关键技术进行了深入研究,取得了如下研究成果:  1.融合空间信息的VLAD特征  传统的VLAD(Vector of Locally Aggregated Descriptors)特征仅使用局部特征本身,而并未考虑局部特征的位置等重要信息,区分能力存在不足。由此本文提出了基于空间金字塔的VLAD特征,该方法使用空间金字塔对图像的局部特征进行分层聚合,在一定程度上保留了局部特征的空间信息。并通过实验表明,本文提出的方法与VLAD相比,在Holidays数据集上,mAP提升达到5.4%;在Oxford5k数据集上,mAP提升达到14.2%。  2.基于GPU的VLAD-GPU算法  为了应对大规模数据处理的实时需求,通过研究VLAD特征的并行化计算策略,实现了基于GPU平台的VLAD-GPU算法,大大降低了VLAD特征的提取时间。实验表明,在常用图像尺寸640×480和常用VLAD视觉词典大小k=128时,VLAD-GPU比VLAD-CPU速度平均提高了4倍。  3.大规模图像/视频检索系统  系统主要由检索子系统、采集子系统和WEB客户端三部分组成。其中检索子系统使用了分布式的架构,保证了系统的检索速度和处理大规模数据的可扩展性。为验证上述成果在大规模图像检索中的应用效果,构建了规模高达1亿张的图像数据库。在此图像库上,通过采用GPU特征提取技术,单幅图像特征提取平均耗时13.98ms,速度提高了20倍左右;平均F1值为0.586,单幅图像检索平均耗时为484.98ms。以上研究成果同样可以运用到大规模视频检索中,为此构建了20万小时的视频数据库,在此视频库上,平均F1值为0.878,单帧检索平均耗时为868.79ms。
其他文献
随着Web的迅速发展和普及,可以获取信息的种类和结构日益丰富,从传统关系数据库到分布于Web上的大量半结构化信息,以及日益增多的HiddenWeb数据信息。如何实现基于Web的分布式信
随着人机交互技术的发展,各种新的交互手段不断涌现,使人机交互朝着更加自然、高效和更加智能化的方向前进。基于视频的交互(VBI,VisionBasedInteraction)或基于摄像头的交互(CB
学位
网络的对等技术(Peer-to-Peer)和网格(Grid)研究的深入,有力地推动Intenet上信息服务的发展。信息服务包括:分布式部署、信息的发现、存储服务、查询服务、服务组合、内容发布与
最近几年,因特网“杀手级应用”已经由Web浏览演变为P2P,基于P2P的下载工具已经成为因特网上最流行的下载软件。研究表明,P2P流量已经消耗了60%以上的网络带宽。P2P业务的不断增
现有的结构模式识别方法一般应用在已知的领域,要对一个不了解的专业领域实行结构模式识别,必须首先获取该领域的专业知识,而这往往要耗费很多的时间和精力。本文提出了一种独立
形式化开发安全保证技术是高安全等级操作系统的关键技术难点,国内尚未见相关研究成果,论文围绕高安全等级操作系统开发的整个生命周期,研究了安全策略模型和顶层规范的形式规范
传统高速互连网络中,采用基于客户机/服务器和消息传递的通信模型。在这种模型中,不仅需要软件为通信双方建立起连接,数据的传输过程也需要调用网络协议栈、文件系统以及存储管
安全多方计算是近年来发展起来的一个研究方向,是密码学的重要分支,许多基础的密码学问题比如认证、密钥交换、签名等都可以用安全多方计算协议来解决。而秘密匹配问题是安全多
异常点挖掘,是一种寻找给定数据集中潜在反常对象的重要数据挖掘技术,它在网络入侵检测,诈骗行为分析与预警,以及病症分析等领域中有着广泛的应用。异常点挖掘同分类技术、聚类技
城市地铁系统大多是在半封闭的空间运行,人员密集,出入口较少,通风照明条件有限,疏散线路复杂。一旦站点发生突发事件(比如,恐怖袭击、乘客坠亡、人员踩踏等),容易造成严重的人员伤亡