基于血缘关系的元数据管理系统的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:shibin19860211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据仓库技术的越发成熟,数据体系俨然成为企业决策的重要依据。数据仓库是一种由多数据源组成、以查询为主的数据库。其数据来源的多样性以及数据之间依赖关系的复杂性,导致其元数据管理的难度增加。清晰地数据血缘关系展现,实现了数据的追根溯源,便于排查数据出现问题时的原因。并且利用已经构建完成的数据血缘关系,能够发送数据变更通知、实现表的重要程度排名,对提升数据质量与资源治理具有重要意义。目前业内对于数据血缘关系的解析方案尚未达成共识,比较普遍的解决方法有:使用开源数据治理工具Apache Atlas,但该工具只提供Hive中血缘关系的获取,并不支持Apache Spark、Apache Flink等其他数据处理平台,而且与数据处理平台存在耦合性的问题,即血缘的获取依赖数据处理平台,在使用过程中会影响数据处理平台的执行效率,还会增加其故障率;使用某些数据处理平台本身提供的血缘工具类,不存在耦合性问题,但是只有表级别的血缘关系,没有字段级别的血缘关系。针对上述问题,本文提出了一种数据血缘解析方案,通过自行模拟Hive SQL和Spark SQL语句的执行的方式,从中解析出表级别以及字段级别的血缘关系,不依赖数据平台处理的中间过程,从而解决耦合性与解析粒度不够细致的问题;由于Flink任务并不使用Flink SQL开发,所以通过提供Flink插件的方式以获取Flink任务级别血缘,完成了Spark、Flink和Hive三个数据处理平台的血缘获取。本文还借鉴谷歌利用网页引用关系实现网页排名的思想,利用数据(表)之间的血缘关系完成数据的重要程度排名,优先对较重要数据的产出任务进行优化,从而提高数据产出任务治理的效率;据此排名标准可以将数据与个人或者团队关联,建立一套奖励或者惩罚制度,使数据开发人员不再热衷于建设新表,以提高数据开放程度,减少数据重复建设,达到节省资源的目的。本文依靠血缘关系的构建方法与表排名算法的研究,设计并实现了一种基于血缘关系的元数据管理系统,提供数据血缘展示、资源治理、数据变更和数据检索等功能。通过血缘关系的展现与应用,理清了数据之间的依赖关系,优化了资源配置,目前系统已上线并平稳运行,显著地提升了元数据管理服务的质量。
其他文献
随着互联网技术和经济水平的飞速发展,大宗商品交易开始由传统的线下交易逐步转移到线上来,其信息化管理的高低很大程度上影响着企业运营效益。早期系统服务端架构主要采用单体式架构和SOA架构开发,但这些传统的架构方式缺乏足够的弹性支持实际业务流程的变更,难以应对系统复杂性的增加。针对这些问题,本论文研究基于微服务架构的大宗商品采销管理系统的设计与实现,本文的主要研究内容如下:(1)针对传统的单体式架构和S
学位
在中国合同管理进一步深化发展与法律风险评估管理逐步趋向完善的今天,随着国家经济可持续的上升发展,标准合同风险的分析管理工作仍在较为迫切地持续增长态势中,但在此过程中针对合同管理的风险管理却成为人们忽视的重要部分。因此,统一标准的合同管理及风险控制分析技术在现代合同的管理问题中越来越显得重要,成为目前该科学领域最为迫切需要我们解决研究的关键问题。本文作者通过对国内外合同管理风险发展研究现状的研究,归
学位
一直以来,中外学者利用语言学及其相关学科理论分析翻译中的衔接手段。并从笔译研究深入到向口译研究。衔接手段应用贯穿每次口译实践,是译文输出时不可忽视的环节。汉英翻译时,如果无法梳理出文中隐含的衔接关系,译文的逻辑性就会大打折扣。在有关衔接手段的探讨上,研究者大多关注译文衔接手段的重要性,学生译员衔接手段使用情况有待进一步研究。本文依据韩礼德的衔接手段分类标准,以10名全国口译大赛决赛学生译员的汉英译
学位
在网络时代蓬勃发展的今天,伴随着学者们越发高涨的科研热度,科技情报数据(学术研究成果,论文、专利、项目)数量呈现出了爆炸性上升态势,导致了信息过载的问题,使得学者难以有效地在海量的科技情报数据中找到自己迫切需要的数据。同时科学研究的复杂性、多元化和融合性,使得目前企业需求项目中存在的重大研究问题需要多种不同学科之间的知识进行融合才能解决。因此,为学者推荐他们急需和感兴趣的科技情报数据,同时为企业提
学位
随着全球化的发展,中国与世界的联系日益密切,中国人类命运共同体理念越来越被世界所接受和推崇。世界更想了解中国,我们也需要讲好中国故事。口译便成为了相互交流的桥梁。作为一名英语口译专业的学生,作者根据自己的实践经验写了这篇口译报告。本报告是在内蒙古呼和浩特市历史文化旅游景点昭君博物院进行的中英交替传译实践基础上形成的。本报告对昭君博物馆三个展厅,即昭君出塞陈列展厅、匈奴历史文化展厅、中国古代和亲文化
学位
[目的]了解辽宁铁岭地区牛病毒性腹泻病毒(BVDV)、牛肠道病毒(BEV)的流行病学情况。[方法]对2021年6月至2022年6月辽宁铁岭地区不同奶牛场进行BVDV、BEV的发病情况调查,采集648份病样进行抗原检测。[结果]辽宁铁岭地区不同奶牛场BVDV单一感染率为19.14%,BEV单一感染率为14.97%,BVDV/BEV混合感染率为8.64%,其中不同年龄牛群均存在不同程度的BVDV和BE
期刊
[目的]了解陕西省榆林市奶牛场牛病毒性腹泻病毒(BVDV)感染情况。[方法]从5家奶牛场采集156份血清样品,采用双抗体夹心ELISA方法进行BVDV抗原检测。[结果]除1家未检测到BVDV,其余4家均存在BVDV感染,BVDV抗原阳性率0~6.38%,平均为4.49%(7/156),成母牛、犊牛、育成牛BVDV抗原阳性率分别为5.66%、4.44%、3.45%。[结论]陕西省榆林市5家奶牛场存在
期刊
本篇口译实践报告以作者负责的一项汉译英口译任务为研究语料,描述了作者在2021年卢森堡驻华大使参加第八届库布其国际沙漠论坛期间,陪同参观亿利科技园时担任口译工作的实践过程与心得。本研究报告以作者所做的汉译英口译内容为对象,分析了此次实践中出现的问题与不足之处,并且有针对性地对这些问题进行了探讨,总结出了应该使用的翻译策略和问题解决方法。本报告旨在为沙漠生态保护治理类的交替传译提供借鉴,促进内蒙古沙
学位
交替传译作为口译活动的分支,有着即席性和不可预测性的特点。因此,在这一过程中口译员的记忆力面临巨大的压力。口译笔记是对译员短期记忆力的补充,亦是交传中的基础技能。现如今,关于口译笔记的研究越来越多,但是其中以学生译员作为实验对象的研究很少,这是由于实验人数有限且实验设计复杂所致。为了更好的研究交传中笔记的作用,本文将研究重心放在了学生译员口译笔记特征进行了实证研究。尽管关联理论应用到口译领域已经很
学位
随着移动互联网的广泛普及,企业的营销推广活动已从线下逐步过渡到线上。推广平台成为宣传企业产品和服务,保持用户粘性的重要手段,通过助力和发奖,达到指数级吸引大量的用户、快速引流的目标,从而为企业和用户带来双赢。本文的推广平台以分布式架构为基底,在其上构建相互隔离的微服务,在架构设计上保持了平台运行的稳定性和容错性,在技术实现上应对了大流量和高并发的情况,为企业和用户带来稳定可持续的服务。系统采用了分
学位