论文部分内容阅读
移动互联网的迅猛发展和移动智能产品的迅速推广,使得新型应用风靡全球,促使互联网中的图像资源呈现指数级爆炸式增长,催生了以“大数据”为特色的网络数据时代。大数据时代以及云计算技术为基于图像检索的应用研究带来了新的机遇和挑战。图像数量的快速增长使得传统的以集中式索引模式构建的数据中心面临低效、扩展性差等问题。近几年来,依据覆盖网络(Overlay network)的思想,借助分布式哈希表(Distributed Hash Table,DHT)技术为数据中心构建一个纯分布式架构成为一种新型解决方案,更加适用于海量资源的检索和管理需求。在基于DHT的结构化分布式系统中,每个结点只负责部分资源索引和小范围路由信息,实现整个分布式网络的寻址和资源快速定位。不同于基于关键字的图像检索,基于内容的图像检索技术能够不借助文本描述找出与查询示例内容相似的图像,更适宜于图像检索,已成为近年来图像检索的主流技术。因此,如何结合DHT检索机制,实现基于内容的图像快速检索和匹配,已成为当今重要的研究课题。本文提出了一种基于内容的大规模分布式图像检索框架,可以针对不同类型的图像生成相应的分布式索引,并采用覆盖网路由协议发布索引和定位查询。该框架基于自组织的云计算环境构建,便于大规模部署,有效提高了基于内容图像检索系统的可扩展性和容错性。实现该框架包括如下关键问题:如何根据图像视觉特征构造分布式索引,并根据用户反馈修改查询;如何在保障负载均衡的情况下,将索引均匀地发布到各个结点上;如何有效降低通信代价并保障查询效率等。围绕上述问题,本文的创新工作概括如下:(一)提出了针对图像纹理特征的大规模分布式检索系统LRFIR (LSH-based Relevance Feedback for Image Retrieval),既支持内容相似性检索也支持语义相似检索。LRFIR运用了多基元纹理直方图进行图像特征提取,利用一组局部敏感哈希函数,将纹理相似的特征以较高的概率映射到同一个哈希值,从而生成了图像的分布式纹理索引。DHT使得查询请求只发送到可能含有该纹理特征的结点,降低了通信代价且保证了查询准确率。(二)采用信息检索中的相关反馈机制克服低级特征和高级特征之间的鸿沟,实现分布式环境下图像内容的语义查询。LRFIR相关反馈允许用户在结果中选择与查询相关和不相关的图像以帮助系统不断更新查询,使查询不断接近用户语义。本文采用分别图像库Corel和Caltech 101 Object Categories进行了验证,结果表明LRFIR能够在较少的跳数内完成检索,并保证系统的负载均衡。(三)提出了针对图像融合特征的高扩展性分布式检索框架LFFIR (LSH-based Fusion Features for Image Retrieval)。LFFIR利用图像融合特征的多特征性,从多个角度捕捉图像内容并将其引入DHT,更适合于检索内容丰富的自然景观图像。LFFIR包含索引构造服务和查询处理服务,前者利用融合特征构造图像的分布式多特征索引,并将相似图像的索引聚集到同一结点;后者负责处理查询图像,发布查询消息,并将消息路由到最可能应答查询的结点。与M-Chord的对比实验证实,LFFIR能以较低的查询代价,完成准确的检索。(四)针对图像的局部特征,提出了基于词袋模型的分布式图像检索框架BVWIR (Bag of Visual Words based Image Retrieval),将词袋模型整合到DHT中,利用局部敏感哈希函数特性为局部特征聚类并自动生成视觉词典,更适合于对物体图像的检索。BVWIR将相似图像块以极高的概率发布到相同的视觉词汇,而不需要任何全局信息。同时,为降低多个局部特征引起的高额查询代价,该框架包含了两种消息传输模式,并行模式和串行模式,以降低查询代价且保证准确率。