论文部分内容阅读
移动网络的快速发展正在逐步改变着人们的生活。随着移动带宽的增长和移动终端的普及,越来越多的数据从移动设备产生。这些移动数据有不同于互联网的新特性,比如数据普遍较小但产生频繁、包含地理位置等隐私信息,需有不同于互联网系统的处理策略。而且,随着用户的激增,移动互联网的需求也逐渐增多,导致移动业务核心控制网络需要更加高效、完善的系统来处理和存储数据。 从研究角度来看,新型的移动业务要求下的数据存储有以下一些特点:1.移动业务繁多,数据更新频繁,导致存储系统面临高并发考验;2.移动应用用户数量巨大,存储数据呈爆发式增长,必须解决海量数据存储和访问瓶颈,并需要高可扩展性解决数据增长带来的扩容问题;3.移动数据牵涉到用户身份信息和位置信息,不能丢失并且随时可访问,因此需要保证存储系统高可用性。 现有系统的分布式用户数据管理部分,大多数还是采用关系型数据的体系结构,在面临新的移动业务控制网络时会有一些新的问题:1.基于关系的数据结构和存储方式导致存储性能和索引性能下降,处理并发能力不足,无力承担高性能的读写;2.由于索引一般都由主节点维护并且多表查询性能消耗巨大,关系型数据库处理海量数据的能力不足;3.关系型数据库一般缺乏健全的扩展机制,面临新业务增长时系统扩展困难。 本研究正是在新型移动业务需求和移动数据激增的大背景下,提出面向移动业务数据的高效的分布式用户数据管理体系结构和相关的机制研究,主要分为以下四个部分: 1)本文的第一部分,是针对于移动业务控制网络中快速检索、高效访问、高度扩展和可靠存储等特性的新特性,提出新的分布式用户数据管理体系结构--PKUCassandra。设计思路包括分布式存储架构以及用户数据管理架构的设计;具体实现包括系统接口的设计、数据访问层的设计以及系统的一些界面展示;系统调优经验包括在系统开发中积累的一些经验,包括缓存的设置和压缩机制的选择和配置等。 2)本文的第二部分,是介绍在查询系统上的数据并行批量导入的方法和PKUCassandra二级索引的创建及查询机制。数据并行批量导入的方法可以有效降低数据的处理和导入操作对线上系统的影响,提高线上系统服务的效率;PKUCassandra多维二级索引的创建,实现分布式索引的创建和查询,并支持范围查询,提高索引效率。 3)本文的第三部分,针对于数据组织、数据划分和数据压缩机制做了探讨。其中PKUCassandra内存中使用Memtable,硬盘上使用SSTable的方式保证了批量异步写入的高效并将随机写变为顺序写;随机划分和有序划分提供了在不同数据需求下的功能;借鉴LevelDB的分层压缩机制,能减少系统随机读的概率,保证更高的压缩和读取效率。 4)本文的第四部分,是对前三部分中系统设计、策略研究等方面的实验验证。