大数据环境下的元数据存储管理算法的研究和实现

来源 :西华大学 | 被引量 : 0次 | 上传用户:civili1844
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业规模的大力发展,数据存储量已由原来的TB跃升到PB、EB乃至ZB,大量结构化、半结构化和非结构化的数据面临着统一处理和分析。在这种背景下,大数据技术应用而生,大数据平台的研发受到越来越多的关注。然而元数据作为数据处理技术的核心技术,却依然延用传统的元数据管理方式,存在扩展性弱、存储和查询低效、实时分析性差等缺点,对大数据的快速发展产生了滞后作用。  本文基于中电科华云信息科技有限公司研发的“天马星大数据平台产品”,研究大数据环境下,各种NoSQL以及应用系统之间元数据高效交互的元数据存储和缓存替换策略,进而实现对元数据融合分析的全局、高效的管理。在元数据存储方面,基于大数据下元数据的多种复杂类型和强关系性的新特性,设计了一种 Graph-KV元数据存储模型。其基本原理是通过将存储模型设计成<节点、关系、节点>的三元组形式,封装成Graph图形方式,底层文件存储格式通过Key-Value方式,实现动态存储。并将Graph-KV模型与 HDFS分布式文件系统进行结合,形成双模型来对元数据进行高效地分布式存储。在元数据缓存方面,基于大数据环境下元数据的访问特点,提出了一种自适应缓存替换算法(Orbit缓存算法)。其基本原理是通过数据挖掘中的预测算法,将元数据的请求概率作为缓存替换阀值,并对预测模型进行改进以适应多种元数据访问请求分布达到缓存算法的自适应性。  本文首先阐述了元数据相关概念和元数据管理的相关支撑技术,然后从元数据存储模型和缓存算法方面对元数据管理方法进行了研究和改进。接着利用上文提出的Graph-KV存储模型和Orbit缓存算法设计并实现了一个大数据环境下元数据管理系统,最后通过系统功能测试和性能测试,分别检测视元数据服务的功能特性和性能特性,证明其高效性和可行性。
其他文献
Ad hoc网络是一种工作在无固定结构环境下的自组织的无线移动网络。它适用于军事或是一些特殊应用场合,例如,战场上部队快速展开和推进、发生地震或水灾后的营救等。在没有网
随着信息化程度的不断提高,数据中心发生灾难而造成的数据丢失,会给企业造成巨大的损失,因此构建容灾系统对企业变得越来越重要。调查表明:总体拥有成本(TCO)过高是很多企业
动态二进制翻译器采用运行时翻译的方法来动态生成可执行代码,而传统调试器只能被用来调试静态生成的代码,所以传统调试器无法被用来调试运行在动态二进制翻译平台之上的可执
支持向量机方法已成为数据挖掘中不可缺少的一项技术,它成为近年来数据挖掘技术的新热点。现有的支持向量机大多速度较慢,无法适应实际应用。2005年Tsang提出的核心向量机(Co
随着互联网技术的发展,电子邮件得到了广泛应用,但同时带来了垃圾邮件的泛滥。我国反垃圾邮件工作起步较晚,垃圾邮件在国内情况十分严重。常用的反垃圾邮件技术一般包括白名
基于传感器网络的目标跟踪具有广阔的应用前景,在诸如野生动植物、医学研究以及军事情报收集、地震救援等领域都具有十分重大的意义。本文的研究目标就是使得我们在这些应用
近年来,虚拟手术是数字医疗研究的热点问题之一,它主要应用于教学、培训、诊断、术前计划、康复和手术器械的建模和分析。实现虚拟手术系统的基础是人体器官的软组织建模。目
温度是对蜜蜂生命活动影响最大的环境因素,在寒冷季节,蜜蜂紧缩总体呈椭球状分布;在温暖季节,蜜蜂散开在各张巢脾上呈近乎均匀分布。蜜蜂在繁殖后代时,蜂巢内基本维持在最适
21世纪制造企业的主要模式是敏捷制造。随着信息技术的飞速发展和经济的全球化,企业面对持续快速变化的需求,必须能够快速地做出响应,从而才能贏得市场,赢得客户。制造执行系
电子商务的迅猛发展改变了人们传统的购物习惯。然而,现有的利用分类搜索和关键字搜索的商品搜索技术,存在搜索结果量大而匹配精确度低的问题。本文以商品图像搜索为研究焦点