论文部分内容阅读
随着互联网的飞速发展,各种信息资源快速增长,各行各业每时每刻都会产生海量的信息。而作为信息源之一的图片,具有传输方便、蕴含信息丰富、给人感觉直观等优点,其数量呈指数式增长。如大众熟知的淘宝、京东、微博等网站的图片存储数量已经达到PB级别,并且还在不断增长。面对增长如此迅速的图片资源,传统的文件存储架构和检索技术逐渐暴露出它们的缺点,无法满足当前海量图片资源的存储空间和处理时间的需求。因此,寻找一种能够满足并发访问的,高效的图片存储技术成为很多信息系统中亟待解决的问题。本文分析比较了当前国内外比较有代表性的海量图片存储方案,选择基于对象存储结构来解决上述难题。本文通过对海量图片数据的存储特性的分析,以及对对象存储结构的研究,提出一种基于对象存储结构的海量图片存储框架MISF。该框架以对象存储结构为核心,底层使用分布式架构保证了物理层次的高容量和高吞吐率,利用虚拟化技术将底层文件系统的树形层级结构隐藏,映射为扁平化的存储空间。并且采用新型的数据组织结构,将图片数据紧凑的组织在一起,并且为其生成内部索引文件以供客户端快速访问。本文主要从以下三个方面展开研究:第一,通过对对象存储结构的组织和特性进行研究,提出一种基于对象存储结构的海量图片对象存储模型。该模型底层采用分布式架构,为高容量和高性能提供物理架构的支持,同时整个系统模型将控制通路与数据通路分离,提高系统吞吐率。并且使用虚拟化技术将底层分布式架构和文件层级结构隐藏,虚拟为扁平结构的存储空间,使得用户可以更加友好、快速的获取到图片数据。第二,通过对B+树数据结构的分析研究,采用基于B+树的按需加载索引策略,既解决了海量图片数据的元数据管理问题,又为底层虚拟化提供了技术支持。同时,合理设计图片对象的UID,使得同类图片的物理存储地址尽可能靠近,从而提高了查询效率。第三,通过对当前比较典型的几种缓存置换策略的研究,设计了一种自定义价值模型的缓存置换策略,该策略充分考虑到海量图片对象的空间局部性和时间局部性、长期流行度和短期流行度,能够提高缓存命中率,提升系统查询速度。本文根据所研究的海量图片数据存储框架设计了原型系统,并且对原型进行实验分析,验证了原型系统的可用性和高效性,说明了存储框架的可行性和有效性。