面向多源异构大数据的元数据服务管理平台的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Lucy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多源异构大数据场景下,元数据是指数据由源系统集成到数据仓库过程中的全部信息的描述数据。其中元数据不仅包含数据的基本描述信息,还记录对数据转换来源的描述信息。而数据血缘就是记录描述数据转换来源的历史信息,它是元数据服务管理中的核心难点和挑战。由于大数据中已有组件的异构性和数据来源的多样性,导致目前元数据服务管理中还存在以下几个问题:1)现有的Hive数据血缘解析实现方案中,会存在Hive数据血缘解析与原生组件耦合性高,准确性差、精确度低的问题;2)多源异构大数据处理组件的异构性,导致不同的大数据数据处理组件的数据血缘解析难以有效统一;3)在多源异构大数据场景下,缺少以元数据管理为基础对数据内容或者分析结果的对外开放的统一管理。综上所述,本论文针对多源异构大数据的元数据服务管理中的关键问题,大数据分布式架构下数据血缘解析的难点问题展开以下三方面的工作:1、设计并实现了基于Hive的字段级数据血缘处理的优化方法,通过对原有的Hive数据血缘处理流程进行了重构和改进,实现了对Hive SQL数据血缘的独立解析能力,保证数据血缘功能和Hive数据仓库之间的低耦合;结合元数据服务,实现了对SQL中元数据信息的校验和替换,保证了数据血缘解结果的准确性和正确性。从而解决了 Hive数据血缘解析与原生组件耦合性高、准确性差、精确度低的问题。2、提出并实现了统一大数据数据血缘解析构建方法,通过对异构化大数据处理组件的数据处理流程、多样化的数据转换解决方案进行定义和抽象,将多源异构的大数据处理流程抽象为一个有向无环图的形式,以此为基础提出对应的数据血缘追寻算法。并且对于不同大数据处理组件(如:Hive、Spark)的处理流程实现了对数据血缘的统一处理和构建,以解决复杂多样的大数据组件所带来的数据血缘处理方面的挑战。3、设计并实现了面向多源异构大数据的元数据服务管理平台,实现了对多源异构元数据的统一管理,并且除支持基础元数据信息之外,还支持对数据血缘的采集与查询,便于用户对数据来源与去向进行理解分析。以多源异构元数据的统一管理为基础,支持数据模型的快速建设,通过标签化的数据模型绑定建立相应的数据模型业务场景,实现了在大数据场景下的数据标签模型,以及数据服务的统一管理。最后,该平台应用于国家重点研发计划项目“大数据征信及智能评估技术”中,验证了本文平台及方法的有效性及实用性。
其他文献
面部动作追踪与动画驱动已经广泛的应用于影视、游戏、娱乐等行业中,主要依赖硬件设备捕捉并提取面部的动作,包括头部姿态、面部表情和眼球方向等,将这些运动参数映射到3D模型中,从而实现人脸动画的驱动。在影视行业中,对准确度的要求非常苛刻,依赖十分复杂的图像采集设备,例如多目或深度摄像头等,并且有需要人工操作的前后期处理过程;相反,应用于娱乐行业的方法,对实时性要求非常高,使用精简的方法仅提取极少的面部动
近年来,区块链技术作为信息化时代的新兴前沿技术,受到了政府及社会各界的广泛关注,目前在很多行业都取得了显著的应用成效。而地勘工作属于数据密集型工作,进一步汇聚共享行业地勘数据,加强地勘行业数据资产管理,是当前地勘工作的重中之重。本文通过研究智能合约、区块链数据结构等关键技术,将区块链技术和地质勘察项目监管工作相结合,设计并实现了一个基于区块链的地勘大数据防篡改子系统。该系统通过执行智能合约,可以将
信息的飞速增长引爆了大数据时代的到来,其中随着通信行业的不断发展,也使得越来越多的电信欺诈出现在用户的日常生活中。电信诈骗已经成为影响人们日常生活的主要诈骗形式,且当下的反欺诈手段较为被动与笨重,无法满足高效反诈的需求,针对电信诈骗的研究迫在眉睫。因此,本文基于电信反欺诈场景下的信令数据与通话文本数据,分别提出反欺诈综合决策识别算法,诈骗模式发现及趋势分析算法,能够高效的进行相应的电信反欺诈识别与
随着深度学习领域的快速发展,使用深度学习模型改善认知服务逐渐成为一种趋势。如何在保护用户数据隐私的前提下,基于用户数据在移动设备上为用户训练推断速度快、高性能的深度学习模型用以提供认知服务,成为了亟待解决的问题。先前的研究主要着重于在云服务器上训练高性能的模型为用户提供服务,在边缘服务器对数据进行预处理后再将数据发送至云端完成训练任务,设计新颖的模型结构或采用网络压缩技术以将模型部署在移动设备上,
毫米波雷达受外界影响小,因此能够在各种环境下稳定工作。近年来,毫米波雷达在诸多场景中被广泛应用,路口监测场景下也需要使用毫米波雷达识别车辆的种类。本文重点研究了高分辨距离像(HRRP)的识别算法,分析了传统算法的缺点,设计了车辆目标的识别分类方法,并在实验仿真中验证了算法性能。本文工作主要分为以下两个部分:第一部分研究了雷达的散射点模型,分析HRRP的敏感性和解决方案。然后深入讨论了传统算法的缺点
互联网飞速发展以及web2.0时代计算机与手机等设备的普及,促使网络上用户产出内容的激增。这些包含巨大信息量的数据对为用户提供个性化服务有着重大意义和研究价值。情感分析是挖掘文本内容的重要手段,其主要是辨别文本表达的主观情感。细粒度情感分析——方面级别的情感分析(aspect level sentiment analysis)主要是从文本中提取给定方面的情感极性,近年来已经成为业界的关注焦点。本文
随着互联网行业的飞速发展,各类新型网络业务层出不穷,给接入网网络设备的承载能力带来了不小的挑战。接入网作为最靠近用户侧的网络,直接影响用户的用网体验,对其的改造升级具有十分重要的意义。当前的网络升级规划主要依据工程师经验进行,通过人为经验指导某片区无源光网络(Passive Optical Network,PON)口进行改造升级。但由于人为经验无法量化、判定过程依据指标较为片面,在运营商投资成本受
十九大以来,我国教育信息化迅速发展,实现了从融合应用到创新发展方向的迅速转变,对于心理健康教育工作也是如此,基于互联网环境,通过云计算、智能物联、人机交互、语音识别等先进的信息化技术手段搭建心理健康教育大数据平台,构成的心理教育服务生态圈推进了我国心理教育工作的迅速发展。手机、平板电脑等智能终端产品及人们的日常生活,信息化社会出现了“秀才不出门,便知天下事”的高度科技信息化。届时社会各个群体面临着
近年来,深度学习技术被应用于各种医学影像分析任务,在眼科疾病智能预测任务上也吸引了广泛的研究,然而仍面临以下问题:(1)当前的大多数研究仅使用单一模态影像作为模型辅助诊断疾病的输入,不符合临床时大多数眼病诊断的实际流程。此外,眼科疾病种类繁多且发生率严重不平衡,存在众多罕见眼科疾病,而现有研究使用的影像数据大多疾病种类分布均衡且疾病种类数量较少,这限制了深度学习技术在现实临床场景中的应用。(2)其
复杂网络广泛地存在于社会和自然界的各个领域,这使得复杂网络的研究成为当前最重要且最热门的研究领域之一。复杂网络的结构与节点的复杂性使其在医学、生物学、社会学及信息科学等各个学科领域有着广泛的应用。在信息科学领域,复杂网络的复杂性为信息加密通信提供了优质的条件,研究者们利用此特点设计了基于复杂网络的加密通信方案。对加密通信方案进行安全性分析是必要的。复杂网络的重构是指根据可观测到的数据来推断或计算得