论文部分内容阅读
随着中国互联网产业的发展,出现了大量的像淘宝、京东这样拥有海量图片的网站,并且图片的数量还在以指数级别的规模增长。当用户在访问这些网站时,页面中图片流量能占到页面总流量的80%左右。由于图片存储在物理硬盘上,访问图片需要进行多次I/O操作。因此,当并发用户数量达到百万级别时, I/O操作会成为系统性能的瓶颈。又由于操作系统目录中文件数量有限制,因此,随着图片文件数量的增加,如何有效的存储和检索海量图片成为业界的一个难题。 本文重点研究如何有效的存储和检索海量图片,根据分布式存储的思想设计了分布式图片存储系统,该系统由客户端、中央控制节点和数据存储节点三个部分组成,构建在普通廉价的机器上,具有高可用、访问透明和服务可扩展的特性,为用户提供高可用的存储访问服务。 本文从三个方面研究了分布式图片存储系统的性能及优化问题。第一,针对当今主流的分布式文件系统未对海量小文件存储进行优化的问题,提出了小文件合并存储的思想,提高了小文件存储和检索性能。第二,针对图片存储存在热点文件和数据节点负载不均衡的问题,提出了文件块迁移策略,提高了文件块的迁移效率。第三,针对本系统采用中央控制节点的架构存在中心节点的问题,研究了分布式缓存一致性哈希算法的查询性能,提出了哈希空间均分的策略,提高了一致性哈希算法虚拟节点的查询效率。