论文部分内容阅读
互联网应用的内容存取模式已从单数据中心的分布式存储形式向跨数据中心的全局、大规模海量的分布式存取形式发展。传统的分布式存储文件和数据库系统的学术思想和设计原理在新环境下实现这一需求遇到了特定数据流优化、抽象定义基础服务的应用接口和满足大规模扩展设计等困难。博士论文研究具有全局寻址能力相关机理、存储节点失效下内容存储系统的可靠性方法和为应用提供优化的内容存取路径等理论问题,并提出和设计大规模分布式全局内容存储平台的覆盖网体系结构、内容路由算法和海量数据索引机制。
在平台体系结架构方面,本文研究了一种协调工作的分布式全局内容存储模型,它拥有全局内容索引机制、高效的数据分发机制和经济的存储方式。为保障系统可靠运行,设计了无单点失效的扩展性、数据最终一致性保障、数据完整性保障、垃圾回收和错误检测处理机制。新架构满足现代分布式系统的CAP特性,并重点优化了系统的可用性和分布容错性,支持热点内容路由优化和海量数据全局检索,设计的API使得架构对外部应用透明。
针对热点内容高效存取,本文提出了一种热点内容小世界路由算法。算法综合考虑内容流行度、节点对应的用户群兴趣两个参数,构建符合小世界理论的热点内容路由表,并根据内容与节点热度关联实现副本缓存。理论分析表明该算法比简单内容路由可以减少跨区域网络流量近80%,从而大幅度缩小了大规模应用的响应延时,优化了系统负载均衡性,提高了系统的并发性能。
为了解决全局大规模内容存储平台的快速检索数据问题,本文还分析了传统数据检索过程,比较了基于普通哈希表的随机查找方法和传统顺序查找方法,提出了应用Bloom Filter技术构建高效存储索引的方法。该方法横向扩展能力强,检索性能与数据规模无关,单节点检索性能高。实验表明从1亿条记录中检索1条记录的时间性能在毫秒级并且与独立于数据规模。
在平台的实际应用方面,文章利用全局内容存储平台的设计思想和关键技术实现了中国科学院大学空中课堂视频云应用框架。该框架在支持资源托管、视频点播、虚拟站点应用中具有明显的效果,减少了网络带宽消耗、提高了并发度、优化了负载均衡、降低了响应延时、实现了快速分布式全局检索并支持对外透明服务。我们还针对高效生产视频内容方面进行了优化,缩短了5/7制作时间,减少了3/4视频文件大小,从而提升了用户体验。