论文部分内容阅读
近年来,随着计算机和移动互联网的发展,各种信息呈爆炸式的增长,人们现在已不仅仅只关注数据本身,还关注数据的源头以及历史演变信息,这些历史信息我们称之为溯源信息。数据溯源在数据库以及科学研究领域已经有了很广泛的应用,这其中也包括很多溯源信息系统。除此之外,数据溯源还在其它很多方面发挥着重要的作用,例如调试数据和转换,审计,评估数据的质量和信任度以及实现对数据的访问控制等方面。但是在大数据平台下,不管是源数据还是结果数据,都存储在HDFS之上,传统的溯源方法已经不适合。针对上述问题,本文重点研究了在大数据平台下的模型工作流中不同粒度的数据溯源问题,并设计了一个基于该平台的数据溯源系统,用户可以根据目标结果数据进行追本溯源,从而实现该模型平台的可回溯性,以便以后能够通过溯源来保证数据质量,主要研究内容如下:第一,对粗粒度的数据溯源方法研究。本文针对模型工作流设计并构建了一种溯源元数据模型,基于模型的流程图,采用DAG(Directed Acyclic Graph,有向无环图)作为描述语言,提出一种粗粒度的数据溯源方法,解决了对模型工作流结果数据的来源以及演变过程的问题,本文称该方法为粗粒度溯源方法。但是该溯源方法只能针对目录文件级的数据进行溯源,而无法解决文件中基于数据项的依赖归属问题。第二,针对粗粒度溯源方法无法精确对单个数据项进行溯源的问题,论文进一步研究了如何解决单数据溯源中数据项的依赖区分问题,并提出一种相对粗粒度溯源粒度到达每条数据项的细粒度溯源方法,该方法通过对原生态的大数据框架进行修改扩展,引入溯源标记,从而实现在模型执行过程中自动捕获和保存溯源信息。针对该溯源模型,论文在此基础之上设计了向前和向后的溯源追踪算法。最后,本文根据以上研究内容对该系统进行了设计与实现,并且通过一个实例以及实验展示出效果,同时验证了本文提出的溯源方法的可行性,达到了预期的设计目标。