基于变化数据捕获技术的多源数据质量校验系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xinlingsvs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网应用在近些年取得了飞速的发展,随之而来的是海量的数据,这些数据的治理给企业带来了许多的挑战。数据质量管理作为数据治理的重要组成部分,主要用于保证相关数据满足预期的使用目标,有效的数据质量校验能够为企业避免巨大的损失,数据质量的相关研究正在引起越来越多的人们的重视。数据质量校验系统是数据高质量的重要保证。一方面,传统数据质量校验系统对校验规则采用硬编码的方式,这有很大的局限性,修改校验规则需要更改源代码并重新编译部署服务。另一方面,也有系统采用将校验规则映射为SQL查询语句的方式,但这种方式只能支持部分关系型数据库,需要业务人员掌握专业的SQL语法,同时还存在系统效率与监控告警及时性之间的矛盾。对数据质量校验系统进行了详尽的需求分析,并针对现有校验系统存在的不足之处,设计并实现了一个基于变化数据捕获技术的多源数据质量校验系统。系统基于Avaitor表达式执行引擎实现了校验规则的软编码,业务人员可以通过可视化界面创建出复杂的校验规则。相对于SQL-规则映射的实现方式,将数据与规则的匹配逻辑放在了应用层实现,用以支持各种主流数据库系统的接入。最后,针对前述实现方式存在的效率问题,借助Debezium(一种分布式数据变化捕获组件)的变化数据抓取能力实现了近实时的数据质量校验,能够在秒级别下将数据源的数据变更应用到相应规则,并给出告警通知等。最终测试结果表明,系统能够满足数据质量校验系统基本的需求、支持主流数据源,并且能够达到系统高效率和满足监控告警及时性的要求。
其他文献
编译器测试是保证编译器质量的重要手段。现有的编译器测试技术,在测试的过程中都忽略了执行时间过长的测试程序占用了大量测试资源的问题。这里,执行时间过长的测试程序被称为为超时程序。超时程序的执行时间是正常测试程序执行时间的成百上千倍,执行这类超时程序会严重影响编译器的测试效率。同时,在大量的测试程序中,能够触发编译器缺陷的测试程序仅占少数,称为揭错测试程序,执行大量无法触发缺陷的测试程序同样也会导致编
学位
漏洞是各种网络空间安全事件发生的根源。软件的开源化趋势成为主流,安全缺陷随着开源软件的使用和迭代快速传播。为尽早发现并修补漏洞,源代码漏洞检测技术成为研究的热点。基于深度学习的漏洞检测技术可以自主学习漏洞表征生成检测模型,减少了人工的参与,提高漏洞检测的速度和能力。然而,目前软件安全领域缺乏大规模、真实的、有效的漏洞数据集。人工构造的漏洞数据集样本类型简单、特征单一,难以支撑真实软件漏洞检测的研究
学位
儿童脓毒症发病率高、病程发展快,发病机理复杂,在临床上呈现多样化。由于缺乏黄金诊断标准,导致了其早期诊断困难。在传统数据分析难以对高维、复杂线性关系的数据进行有效分析的情况下,可以利用机器学习来进行儿童脓毒症危险因素的识别,以实现早期诊断。针对医疗数据高缺失率、复杂相关性的特点,提出了基于机器学习的特征贡献度评估方法。使用梯度提升树构建分类预测模型,再使用树模型的夏普利加性解释(Tree SHap
学位
<正>习近平总书记在党的二十大报告中指出,全面推进乡村振兴,坚持农业农村优先发展,巩固拓展脱贫攻坚成果。四川省德阳市认真学习领会党的二十大精神,自觉与学懂弄通做实习近平新时代中国特色社会主义思想贯通起来,与深入学习贯彻习近平总书记来川视察时的重要指示精神结合起来,坚持以党建为引领,以产业发展为重点,以人才赋能为关键,加快推进新时代乡村全面振兴,为全面建设社会主义现代化国家夯实广泛而深厚的基础。
期刊
随着人口老龄化问题的加剧,阿尔茨海默症带来的社会问题日益严峻,尽早诊断与干预治疗具有重要的社会意义与经济意义。近年来,基于机器视觉的阿尔茨海默症识别算法发展迅速,但是仍然面临缺乏大规模训练数据集、算法精度不高以及运行效率较低等问题。本研究旨在基于深度学习改进卷积神经网络(CNN),提高阿尔茨海默症预测算法的精度与效率。针对目前2D CNN未能利用MR图像的三维特性,提出一种三方向2D CNN识别网
学位
互联网高速的信息产出对信息检索技术提出了更高的要求,促使人们在获取信息时从传统的搜索引擎式检索系统转向更为友好的智能问答系统。知识图谱的出现使得结构化的知识数据的存储和理解变得更加便利,从而推进知识图谱问答系统在各领域的应用。在医疗领域,时值2020年新型冠状病毒肺炎疫情全球性爆发,医疗相关知识获取需求凸显。为了满足用户对新冠医疗领域知识获取的需求,设计并实现了基于知识图谱的新冠医疗问答系统。在内
学位
新闻是自然语言处理领域中重要的研究对象之一,从海量新闻中挖掘出内容相关的新闻进行推荐有助于提高用户的阅读体验或用于相关新闻内容分析。对新闻进行特征建模时,传统的文本编码器难以保留长文档中丰富的语义信息和句法结构,因此,文档的图表示法被提出用于发现长格式文档的潜在语义结构。然而新闻文档通常含有复杂的语义交互信息,如何将多样的语义信息建模成网络的表示形式,并从中学习有效地表征用于相关新闻推荐系统是具有
学位
车道线检测作为各类智能安全驾驶辅助系统的核心技术,经过大量研究人员在该领域的研究,已经取得比较显著的成效。但是现有的各类车道线检测算法在各类车道干扰因素如光照不足,阴影遮蔽,车道路面结构的突变等影响下会出现检测车道线不完整以及将车道裂缝当作车道线的误检问题。因此,设计一个在复杂环境下也可以良好检测车道线的算法有着确切的应用意义。对复杂环境下车道线特征进行研究并结合目标检测的方法,提出一种可以自适应
学位
计算机技术在软件方面的发展离不开大量的编码,这些源码许多都能够通过互联网方便获取到。虽然这方便了大家对编程的学习,却也导致在编码上存在大量抄袭行为。因此,方便、有效、快捷的代码抄袭检测方法在当前的时代背景下就显得尤为重要。传统的代码相似性检测方法大多利用程序的属性或结构信息,随着时间的推移,对属性的选择和统计越来越纷杂,对结构的分析也越来越复杂。对相似度检测方法的设计者来说,选择哪种属性和结构信息
学位
在如今的大数据时代,面临与日俱增的计算需求,分布式计算已经成为了各大领域中的研究热点。大量的计算需求往往包含着庞大的计算逻辑,将这种计算需求进行分解得到的众多小的计算任务时,可以利用分布式任务调度框架将这些计算任务分配到各计算节点中,实现任务的并发处理。将这个庞大的计算逻辑模型化为一个工作流,计算逻辑中众多的计算任务视为工作流中环环相扣的阶段。因此,设计出一个处理这种工作流的分布式任务调度框架则显
学位