论文部分内容阅读
随着大数据时代的来临,云存储也迎来了前所未有的发展。 当前国内云存储行业迅速发展的同时也遇到了比较大的问题。阻碍国内的云存储行业发展的首先就是慢速网络问题。国内的网络连接速度远低于国际平均水平,慢速的网络让云存储服务的质量很难满足用户要求。除了慢速网络,云环境下大量的重复数据也使得云存储服务提供商们的存储硬件以及网络带宽的利用率比较低,这也无形中增加了云存储服务的成本、降低用户体验。 针对慢速网络和重复数据问题,当前云存储服务提供商们已有一些优化方案。例如,在用户上传文件时采用md5比对的方法进行文件级重删,进而优化带宽利用率。该种优化措施存在重删粒度太粗并且会消耗云存储客户端的计算资源的问题。 考虑到云存储系统中一般都会使用缓存,由于访问缓存的高效,客户端可以直接和缓存节点进行完整的数据交互。针对慢速网络和重复数据问题,可以对缓存调度过程做更细致的优化。优化措施包括在调度过程中的相似文件搜索和相似文件差分同步。 采用按文件内容分块和搜索引擎相结合的技术进行相似文件搜索,该方法适用于文本文件、二进制文件等,具有更好的通用性。并且,对文件按照内容进行分块的方法可以很好的发现两个相似文件之间的相同数据块,有利于相似文件的检测。文件调度时采用差分同步方式,只传输相似文件之间的差异部分,提高网络带宽的利用率,从而带来很好的用户体验。