论文部分内容阅读
大数据是经济发展的新动能,社会发展的新引擎,塑造国家竞争力的战略制高点,对人民生活具有重大影响。然而,大数据在蓬勃发展的同时,其面临的安全威胁也日益严重。近年来,大数据安全事件频发,大数据安全监管能力与其所处的重要地位不相适应。数据世系描述了数据的起源以及数据到达当前状态所经历的操作与处理过程,是实现数据安全监管的一种有效方法。然而,面向大数据与大数据系统的大规模、多样化、分布式和多用户等特点,将世系应用于大数据安全监管面临世系理论模型构建和世系追踪、融合、质量分析等技术挑战,亟待深入研究。本文围绕上述挑战性问题对面向监管的大数据世系关键技术展开研究,为大数据安全监管提供理论、技术与数据支撑。本文的主要工作及取得的成果如下:1.大数据系统广泛集成了多源异构数据并提供了多种数据存储与处理框架。为支持对多样化数据对象及其操作与处理过程的监管,首先需要构建能够有效表达多样化数据类型以及多样化数据存储与处理模式世系信息的大数据世系模型。针对现有世系模型难以应用于大数据场景的问题,提出了一种面向监管的大数据世系模型(Big Data Provenance Model,BDPM)。首先,分析大数据的主要特点、典型大数据系统技术框架的组成结构与数据安全监管需求,归纳了大数据世系模型的构建需求。然后,采用子类细化和新关系定义等方式对当前被广泛应用的通用世系模型PROV-DM进行扩展构建了BDPM模型。该模型以有向无环图的方式表示世系信息,根据大数据的主要数据类型和大数据系统的主要组成细化世系节点类型、扩充世系关系类型以提升世系的表达能力与监管效能,同时具有可扩展性以适应不断演化的大数据系统。最后,根据提出的大数据世系建模需求,对BDPM模型的有效性进行了理论评估。结果表明,BDPM模型能够有效表达多样化、多层级、多粒度数据对象在大数据系统多种存储、处理或通信等组件共同作用下的完整流转演化过程。2.在大数据系统中,数据安全监管所需的世系信息通常涉及多个用户、应用与工作节点。当前,仅基于多日志分析的世系追踪方法具备获取完整表达数据对象在大数据系统中操作与处理过程所需世系信息的能力,但实际能够获取的世系信息受到日志固有信息的限制。该类方法的理论可行性,也即基于现有日志能够完整获取所需世系信息需要在构建世系生成方法之前进行证明。鉴于世系与日志类型的多样性以及数据操作与处理过程的复杂性,提出专门的可行性证明方法。首先,提出了世系完整性的形式化定义与证明方法。然后,针对基于Hadoop的大数据系统,为证明基于多日志分析的Hadoop世系追踪可行性,根据BDPM模型与Hadoop数据监管需求指定了所需获取的世系信息,在此基础上对21种Hadoop日志与一种操作系统级世系追踪工具Progger日志的内容进行了调查。最后,采用提出的世系完整性证明方法证明了对于给定的世系类型,基于上述日志能够完整获取所需世系信息,为进一步研究基于多日志分析的Hadoop世系生成方法进而促进数据安全监管建立了基础。3.针对多用户、多应用与分布式场景下基于多日志分析的大数据世系实时生成问题,提出了一种基于辅助数据结构与多线程的多源异构日志联合分析方法。首先,选用了10种日志并采用各日志并行分析的方式获取Hadoop数据监管所需的世系信息。其次,构建了4种辅助数据结构与2种辅助文件并提出了4种子线程创建场景以提升日志分析效率并保障日志分析的正确性。然后,在上述日志分析架构下,提出了不同日志分析范畴内各类操作在不同操作执行模式、参数与结束状态,不同文件类型、大小与数量,以及不同类型的操作执行者等条件下的分析方法以及各日志分析进程的协同方法,并将一种基于世系不变量的Map Reduce任务工作者异常行为的检测方法融合到日志分析过程中。最后对所提方法的效率、正确性以及在异常检测上的有效性进行了实验评估。结果表明所提方法的日志分析速率高于日志记录的最高生成速率,通过正确设置在进行操作类型、对象等判断时所依赖的时间阈值,分析方法正确率能达到100%,可支持近实时的世系信息正确生成,为数据安全威胁快速发现与数据安全态势准确掌控提供有力数据支撑。提出的异常检测方法能够有效检测由Map Reduce任务工作者执行的异常操作。4.由于世系追踪环境与世系生成方法的复杂性,获取的世系信息在对数据状态演化过程的描述上难免存在冲突或矛盾,即存在不一致问题,影响世系的数据监管效用。针对在分布式、多日志场景下获取的世系数据的一致性检验问题,提出了一种基于世系图查询与世系节点/关系有序序列分析的世系一致性检验方法。首先,基于BDPM模型,提出了一个有效世系图在结构与属性上应当满足的17条一致性规则。然后,以图数据库Neo4j作为世系存储基础,提出了两种基于世系图查询的检验方法。一种通过将世系一致性规则的违反表现转化为数据库查询条件,直接采用世系图查询对一致性规则进行检验。另一种则是在仅凭世系图查询难以准确检验世系数据是否违反一致性规则时,首先通过世系图查询将待检验的世系节点或关系输出为一个有序序列,然后利用序列记录的多维属性比较做进一步检验。在公开与人工生成世系数据集上的实验结果表明,所提方法能够有效检测世系图在结构与属性上的不一致,方法执行效率较高,可扩展性良好,为世系监管效用的发挥提供了保障。