论文部分内容阅读
随着互联网行业规模的大力发展,数据存储量已由原来的TB跃升到PB、EB乃至ZB,大量结构化、半结构化和非结构化的数据面临着统一处理和分析。在这种背景下,大数据技术应用而生,大数据平台的研发受到越来越多的关注。然而元数据作为数据处理技术的核心技术,却依然延用传统的元数据管理方式,存在扩展性弱、存储和查询低效、实时分析性差等缺点,对大数据的快速发展产生了滞后作用。 本文基于中电科华云信息科技有限公司研发的“天马星大数据平台产品”,研究大数据环境下,各种NoSQL以及应用系统之间元数据高效交互的元数据存储和缓存替换策略,进而实现对元数据融合分析的全局、高效的管理。在元数据存储方面,基于大数据下元数据的多种复杂类型和强关系性的新特性,设计了一种 Graph-KV元数据存储模型。其基本原理是通过将存储模型设计成<节点、关系、节点>的三元组形式,封装成Graph图形方式,底层文件存储格式通过Key-Value方式,实现动态存储。并将Graph-KV模型与 HDFS分布式文件系统进行结合,形成双模型来对元数据进行高效地分布式存储。在元数据缓存方面,基于大数据环境下元数据的访问特点,提出了一种自适应缓存替换算法(Orbit缓存算法)。其基本原理是通过数据挖掘中的预测算法,将元数据的请求概率作为缓存替换阀值,并对预测模型进行改进以适应多种元数据访问请求分布达到缓存算法的自适应性。 本文首先阐述了元数据相关概念和元数据管理的相关支撑技术,然后从元数据存储模型和缓存算法方面对元数据管理方法进行了研究和改进。接着利用上文提出的Graph-KV存储模型和Orbit缓存算法设计并实现了一个大数据环境下元数据管理系统,最后通过系统功能测试和性能测试,分别检测视元数据服务的功能特性和性能特性,证明其高效性和可行性。