论文部分内容阅读
时间序列数据,即一段时间内以固定的时间间隔采集的数据点的序列,已成为生产生活中重要的信息记录形式。RRDtool是当今被广泛使用的一种存储时间序列数据的数据库工具,但是基于RRDtool构建的时间序列数据存储系统在处理大规模数据业务时I/O负荷较重,单位时间内能够处理的RRD文件数量不能满足需求等问题;同时,数据量的迅速增长要求存储系统的容量具有较好的扩展性,特别是能够在不影响系统在线工作的情况下调整存储容量;另一方面,考虑到系统可能发生异常或部分受灾,需要一种在这些情况下能保证系统可用性的存储方案。针对上述问题,本文研究并实现了一种面向大规模时间序列数据的存储系统。构建该系统的关键部分是mem-RRD和MooseFS,前者是对RRDtool的改进实现,I/O性能更好;后者是一种分布式文件系统,可以保证存储系统的可用性和扩展性。本文首先介绍了一种命名为mem-RRD的基于用户空间缓冲的RRDtool改进方案的设计和实现过程;然后给出利用mem-RRD和MooseFS构建和部署面向大规模时间序列数据的存储系统的方案,最后针对该存储系统的I/O性能、可用性和扩展性进行了详细的测试,并对测试数据进行对比和分析。测试结果证明,基于mem-RRD和MooseFS构建的面向大规模时间序列数据的存储系统在I/O性能、可用性、容量扩展性等方面都有较大改进或较好表现。