面向监管的大数据世系关键技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:jjdoris1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是经济发展的新动能,社会发展的新引擎,塑造国家竞争力的战略制高点,对人民生活具有重大影响。然而,大数据在蓬勃发展的同时,其面临的安全威胁也日益严重。近年来,大数据安全事件频发,大数据安全监管能力与其所处的重要地位不相适应。数据世系描述了数据的起源以及数据到达当前状态所经历的操作与处理过程,是实现数据安全监管的一种有效方法。然而,面向大数据与大数据系统的大规模、多样化、分布式和多用户等特点,将世系应用于大数据安全监管面临世系理论模型构建和世系追踪、融合、质量分析等技术挑战,亟待深入研究。本文围绕上述挑战性问题对面向监管的大数据世系关键技术展开研究,为大数据安全监管提供理论、技术与数据支撑。本文的主要工作及取得的成果如下:1.大数据系统广泛集成了多源异构数据并提供了多种数据存储与处理框架。为支持对多样化数据对象及其操作与处理过程的监管,首先需要构建能够有效表达多样化数据类型以及多样化数据存储与处理模式世系信息的大数据世系模型。针对现有世系模型难以应用于大数据场景的问题,提出了一种面向监管的大数据世系模型(Big Data Provenance Model,BDPM)。首先,分析大数据的主要特点、典型大数据系统技术框架的组成结构与数据安全监管需求,归纳了大数据世系模型的构建需求。然后,采用子类细化和新关系定义等方式对当前被广泛应用的通用世系模型PROV-DM进行扩展构建了BDPM模型。该模型以有向无环图的方式表示世系信息,根据大数据的主要数据类型和大数据系统的主要组成细化世系节点类型、扩充世系关系类型以提升世系的表达能力与监管效能,同时具有可扩展性以适应不断演化的大数据系统。最后,根据提出的大数据世系建模需求,对BDPM模型的有效性进行了理论评估。结果表明,BDPM模型能够有效表达多样化、多层级、多粒度数据对象在大数据系统多种存储、处理或通信等组件共同作用下的完整流转演化过程。2.在大数据系统中,数据安全监管所需的世系信息通常涉及多个用户、应用与工作节点。当前,仅基于多日志分析的世系追踪方法具备获取完整表达数据对象在大数据系统中操作与处理过程所需世系信息的能力,但实际能够获取的世系信息受到日志固有信息的限制。该类方法的理论可行性,也即基于现有日志能够完整获取所需世系信息需要在构建世系生成方法之前进行证明。鉴于世系与日志类型的多样性以及数据操作与处理过程的复杂性,提出专门的可行性证明方法。首先,提出了世系完整性的形式化定义与证明方法。然后,针对基于Hadoop的大数据系统,为证明基于多日志分析的Hadoop世系追踪可行性,根据BDPM模型与Hadoop数据监管需求指定了所需获取的世系信息,在此基础上对21种Hadoop日志与一种操作系统级世系追踪工具Progger日志的内容进行了调查。最后,采用提出的世系完整性证明方法证明了对于给定的世系类型,基于上述日志能够完整获取所需世系信息,为进一步研究基于多日志分析的Hadoop世系生成方法进而促进数据安全监管建立了基础。3.针对多用户、多应用与分布式场景下基于多日志分析的大数据世系实时生成问题,提出了一种基于辅助数据结构与多线程的多源异构日志联合分析方法。首先,选用了10种日志并采用各日志并行分析的方式获取Hadoop数据监管所需的世系信息。其次,构建了4种辅助数据结构与2种辅助文件并提出了4种子线程创建场景以提升日志分析效率并保障日志分析的正确性。然后,在上述日志分析架构下,提出了不同日志分析范畴内各类操作在不同操作执行模式、参数与结束状态,不同文件类型、大小与数量,以及不同类型的操作执行者等条件下的分析方法以及各日志分析进程的协同方法,并将一种基于世系不变量的Map Reduce任务工作者异常行为的检测方法融合到日志分析过程中。最后对所提方法的效率、正确性以及在异常检测上的有效性进行了实验评估。结果表明所提方法的日志分析速率高于日志记录的最高生成速率,通过正确设置在进行操作类型、对象等判断时所依赖的时间阈值,分析方法正确率能达到100%,可支持近实时的世系信息正确生成,为数据安全威胁快速发现与数据安全态势准确掌控提供有力数据支撑。提出的异常检测方法能够有效检测由Map Reduce任务工作者执行的异常操作。4.由于世系追踪环境与世系生成方法的复杂性,获取的世系信息在对数据状态演化过程的描述上难免存在冲突或矛盾,即存在不一致问题,影响世系的数据监管效用。针对在分布式、多日志场景下获取的世系数据的一致性检验问题,提出了一种基于世系图查询与世系节点/关系有序序列分析的世系一致性检验方法。首先,基于BDPM模型,提出了一个有效世系图在结构与属性上应当满足的17条一致性规则。然后,以图数据库Neo4j作为世系存储基础,提出了两种基于世系图查询的检验方法。一种通过将世系一致性规则的违反表现转化为数据库查询条件,直接采用世系图查询对一致性规则进行检验。另一种则是在仅凭世系图查询难以准确检验世系数据是否违反一致性规则时,首先通过世系图查询将待检验的世系节点或关系输出为一个有序序列,然后利用序列记录的多维属性比较做进一步检验。在公开与人工生成世系数据集上的实验结果表明,所提方法能够有效检测世系图在结构与属性上的不一致,方法执行效率较高,可扩展性良好,为世系监管效用的发挥提供了保障。
其他文献
玉米作为我国主要的经济作物,不仅受到市场的喜爱,更是占据了我国农业经济结构中的重要地位。而玉米种植新技术的发展更是提高了玉米种植的产量,在减少人工成本的同时实现了增产增效。本文将从玉米种植新技术开发与推广的意义、玉米种植新技术要点,以及玉米种植新技术推广方式三个方面进行相关论述,以供参考。
本论文研究了甲基对硫磷水解酶MPH(methyl parathion hydrolase E.C.3.1.8.1)的纯化步骤、理化性质及动力学参数,优化了生产Pseudomonas sp WBC-3的产酶培养基,研究了粗酶乳剂的制备。 我们根据Pseudomonas sp WBC-3的生长特性及产酶情况,以阳离子交换层析纯化胞内粗蛋白中,使酶的比活提高了49.1倍,得到了均一的目的蛋白MPH
根据对卷枝毛霉(Mucor circinelloides),布氏须霉(Phycomyces blakesleeanus),Rhizopus niveus,Rhizopus arrhizus ,Rhizomucor pusillus的乳清酸核苷-5’-单磷酸脱羧酶基因核酸序列的同源性分析,在第3个外显子内根据卷枝毛霉基因序列设计一对引物,以三孢布拉氏霉(Blakeslea trispora)基因组D
介绍了苏州市农机化教育培训概况、类型及成效,分析了农机化教育培训面临的问题,并结合新时期农机化教育培训工作中的创新实践,对推进农机化教育培训高质量发展提出对策与建议。
本论文共包括4章 第一章首先对杆状病毒的研究历史作了综述性报道,包括病毒的分类学研究,病毒结构和感染循环等。对棉铃虫单核衣壳核多角体病毒(HaSNPV)的研究历史和近期对HaSNPV的基因组学研究以及本论文的研究内容作了简要介绍。 第二章对HaSNPV基因组中的HindⅢ-Ⅰ片段的序列进行分析,该片段全长7501bp,包括十个开放阅读框:AcMNPV ORF111的同源基因(Ac111
学位
冲压发动机进气道是一种复杂异形薄壁钛合金构件,成形难度非常大。以TA15钛合金粉末为原材料,利用热等静压近净成形技术在国内首次研制成功进气道,实现了整体结构的一次成形,并成功通过飞行考核。从进气道本体取样,测试了不同位置的组织。结果表明:热等静压TA15钛合金不同位置组织均匀性好,主要以板条状或片层状α相为主,在粉末颗粒边界大应变带周围分布着等轴α相,相间分布少量的细小β相。测试了材料各项性能,其
随着汽车智能化、网络化的快速发展,智能网联汽车面临的网络安全问题日益严峻,其车载信息娱乐(IVI)系统的安全性挑战尤为突出,研究IVI系统网络安全问题对提升汽车安全性具有重大意义。目前,针对IVI系统网络安全问题开展的系统性研究工作比较缺乏,涉及到的相关研究主要集中在汽车安全体系、车载总线网络安全、车联网隐私保护、车载无线通信安全等方面。针对IVI系统存在复杂多样的外部网络攻击威胁、与车载总线网络
鲁棒水印是一种能够抵抗滤波、信道噪声、旋转、缩放等攻击的水印,多用于数字内容版权保护和盗版追踪等方面。而仿射变换是由旋转、缩放、拉伸等由单一几何攻击组成而成,抗仿射变换鲁棒水印由于水印同步问题,一直是鲁棒水印研究的一个难点和热点。本文就抗仿射变换的数字水印中的若干问题展开研究,主要工作及创新点如下:1、针对需要在仿射变换后发生形变的图像上同步原始水印嵌入位置的问题,提出了一种基于ASIFT特征点构
本论文共包括3章。 第一章 对杆状病毒的膜融合蛋白的研究进展作了综述性介绍,包括GP64与F蛋白的结构与功能,几种病毒膜融合蛋白的替换关系,GP64表面展示的应用。 第二章 利用Bac-to-Bac系统,构建了带有AcMNPV膜融合蛋白GP64的重组病毒HaSNPVgp64+egfp+和对照病毒HaSNPVegfp+,Western blot分析表明,证明GP64可在HaSNPVg
计算技术的不断更新使计算机体系结构的发展日新月异,计算机体系结构经历着从同构计算模式到异构计算模式的转变,不同处理器厂商之间在体系结构和编程模型方面的巨大差异给计算系统的应用推广带来巨大挑战。利用编译技术自动将串行程序转换为异构并行程序是解决这个问题的一种有效手段。基于多面体模型的编译技术被认为是程序自动并行化领域的一个研究热点。本文以充分利用目标体系结构的硬件特征为目的,对面向异构系统进行多面体