论文部分内容阅读
通信技术的快速发展使人们置身于复杂多变的异构网络之中,各种不同网络的互联互通也让人们的信息交流更为方便快捷,得益于此,智慧城市、智慧交通等项目也开始蓬勃发展。各种不同类型的数据开始汇集到数据中心,数据的属性差异明显,如何有效地在数据中心进行数据存储成为亟待解决的问题。传统的数据库技术已无法满足数据急剧增长和数据类型复杂多变的要求,分布式数据库技术近年来成为存储海量数据的新热点,研究使用分布式数据库技术来存储异构网络中各种不同类型的海量数据是较为合理的方案。目前,国内外普遍使用非关系型数据库模式来构建分布式数据库,其中倍受关注的是HBase技术,其优良的开源特性为国内外厂商所追捧。本文采用HBase作为分布式数据库的基础架构,针对异构网络中数据的特点将之分为结构化数据和非结构化数据,设计了不同的存储方案,改进HBase的性能,以达到行之有效地存储异构网络中海量数据的目标。本文的主要内容和创新点如下:1.研究了本课题所采用的分布式数据库HBase的相关技术,包括其主体架构,存储机制等。将异构网络中的数据分为结构化数据和非结构化数据两种类型,根据不同数据的特点设定各自的存储机制。2.在分析了HBase常用的压缩算法之后,根据结构化数据和HBase列存储的特点提出了Column-Strcut-Compression算法,使得结构化数据在HBase中存储时有更好的性能。3.对非结构化数据中占比最大的多媒体数据在HBase存储时会遇到的性能瓶颈做了分析,给出了多媒体数据分布式数据库存储方案,改进了HBase的Flush、Compaction和Split等机制,实现了多媒体数据的有效存储,提升了HBase在存储多媒体数据时的读写性能。经过实际的集群测试,本文的方案相比于现有的方法有一定优势,很好地实现了海量异构网络数据在分布式数据库中的存储。