大数据模型分析平台下的数据溯源关键技术研究

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:julian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和移动互联网的发展,各种信息呈爆炸式的增长,人们现在已不仅仅只关注数据本身,还关注数据的源头以及历史演变信息,这些历史信息我们称之为溯源信息。数据溯源在数据库以及科学研究领域已经有了很广泛的应用,这其中也包括很多溯源信息系统。除此之外,数据溯源还在其它很多方面发挥着重要的作用,例如调试数据和转换,审计,评估数据的质量和信任度以及实现对数据的访问控制等方面。但是在大数据平台下,不管是源数据还是结果数据,都存储在HDFS之上,传统的溯源方法已经不适合。针对上述问题,本文重点研究了在大数据平台下的模型工作流中不同粒度的数据溯源问题,并设计了一个基于该平台的数据溯源系统,用户可以根据目标结果数据进行追本溯源,从而实现该模型平台的可回溯性,以便以后能够通过溯源来保证数据质量,主要研究内容如下:第一,对粗粒度的数据溯源方法研究。本文针对模型工作流设计并构建了一种溯源元数据模型,基于模型的流程图,采用DAG(Directed Acyclic Graph,有向无环图)作为描述语言,提出一种粗粒度的数据溯源方法,解决了对模型工作流结果数据的来源以及演变过程的问题,本文称该方法为粗粒度溯源方法。但是该溯源方法只能针对目录文件级的数据进行溯源,而无法解决文件中基于数据项的依赖归属问题。第二,针对粗粒度溯源方法无法精确对单个数据项进行溯源的问题,论文进一步研究了如何解决单数据溯源中数据项的依赖区分问题,并提出一种相对粗粒度溯源粒度到达每条数据项的细粒度溯源方法,该方法通过对原生态的大数据框架进行修改扩展,引入溯源标记,从而实现在模型执行过程中自动捕获和保存溯源信息。针对该溯源模型,论文在此基础之上设计了向前和向后的溯源追踪算法。最后,本文根据以上研究内容对该系统进行了设计与实现,并且通过一个实例以及实验展示出效果,同时验证了本文提出的溯源方法的可行性,达到了预期的设计目标。
其他文献
<正>李军,主任医师,教授,医学硕士研究生导师,第三批全国优秀临床人才,第六批全国老中医药专家学术经验继承工作指导老师。李军教授行医30多年,在研读经典基础上将麦冬灵活应
中国的轨道交通进入了一个前所未有的全面快速增长时期,但地铁工程项目投资大,专业多且复杂,地铁设计施工有较大难度。新的信息技术的出现为地铁建设提供了新的思路。本文分
本文以2005年至2009年非金融上市公司为样本,从企业产权性质和所有权与控制权分离程度,基于公司成长性和自由现金流来探讨控股股东与企业现金股利政策的关系。研究发现:控股
全面贯彻证据裁判原则,是推进以审判为中心的关键手段。本文从证据法原理出发,分析了我国众多证据规定中存在的的错误,包括质证规则的虚化、证人出庭作证规则的虚设、迷信直
<正>粤北地区是我国古代客家人居住区,至今也还是客家人的家园。粤北采茶戏是客家先民创造和流传下来的艺术遗产,是客家人最早的戏种之一,同时也是广东六大剧种之一,具有鲜明
苏轼一生屡遭贬谪,坎坷不平,然其却兼融儒、释、道思想指导人生。三种思想渗透于其词中,表现了其虽屡遭不幸却胸怀国家,心忧黎民的赎世精神和孤傲不驯,洁身自好的高洁品格以
“习近平总书记在参加山东代表团审议时指出,要推动乡村人才振兴,打造一支强大的乡村振兴人才队伍。对此,我体会很深。农民科技教育问题是当前乡村人才振兴的一个重要方面。现在
报纸
<正> 羊肚菌(Morchella.esculemta),又名羊肚菜、羊肚蘑、阳雀菌,是一种名贵的昧美野生食用菌。其性平、味甘寒,具有益肠胃、化痰理气等功效,是出口创汇的主要土特产品之一。
<正>建国以后,我们的教科书几乎异口同声地称赞打倒孔家店的伟大口号。后来的批林批孔运动,又进一步把孔子给批个体无完肤。那么,我们今天怎么来看打倒孔家店的口号呢?首先,
会议
<正> 顾德市华宝精细化工厂研制开发了“金博杀虫气雾剂”(油基)新产品,采用本厂生产的铁罐包装。现已批量生产,受到用户欢迎。最近通过了专家的技术鉴定。