基于HDFS的数据安全保护机制研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:white2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据成为一个重要的经济资源,它的安全性、隐私性和正确使用越来越重要。但是目前身份认证,访问控制,异常检测,安全信息和事件管理等国内外主要的大数据安全与隐私的解决方案并没有对数据的生命周期和用户行为进行精确的追踪。溯源通过记录数据产品的演变过程,形成能准确表达数据特征和对象历史的元数据,为数据密集系统中的复杂数据分析与理解提供结构化的指导依据。本文以数据库系统和分布式文件系统HDFS为数据密集系统,数据库文件表和HDFS文件为研究对象,在深入分析国内外数据溯源系统和溯源模型,探讨数据溯源在大数据溯源方面面临的问题与挑战之后,提出将数据溯源应用到大数据安全解决方案中,并设计了大数据溯源系统具体实现方案。本文设计实现的大数据安全溯源系统分为溯源收集及其标准化、溯源压缩、存储中间件和可视化分析四个组件。溯源收集及其标准化组件针对不同的源数据系统,设计了兼容的标准数据采集格式;并实现了数据的远程安全采集,数据版本控制,以及源数据记录到模型的完整映射。溯源压缩组件提出了基于语义的高效的压缩算法解决元数据高效存储的问题。通过对数据系统的记录特征进行深入分析,识别无效数据的基本特征并进行过滤,节省了数据空间;识别重复或相似操作的基本特征,对大量相似操作进行了合并,在减轻系统存储负载的同时,减轻了数据分析的复杂度,优化了数据可视化的速度。存储中间件组件设计了大数据溯源信息存储的可扩展方案,支持不同数据库系统的接入,结构化数据和非结构化数据之间的数据备份和迁移。可视化分析组件实现了大数据溯源的图形数据存储,用户、文件、流程等多个方面数据访问。实现了包括DOT和XML文件在内的数据映射和数据展示,为用户提供丰富、友好、可复用的数据结果。实验结果证明,提出的数据安全保护机制能有效结合HDFS文件系统,充分利用元数据,使文件生命周期及其数据来源,和复杂的历史操作行为变得可核查,为数据保护形成完整的信息揭露和信息推导机制。
其他文献
随着互联网信息技术的不断更新与快速发展,大量僵尸网络与恶意通信的出现严重威胁了网络安全。尽管目前协议解析技术发展已经相当成熟,但是在零先验知识的情况下对于纯比特流
聚类分析是数据挖掘领域的基本方法之一,它根据数据对象之间的相似性,把数据对象分割成簇。从机器学习的角度,聚类分析被看作是一种无监督的学习方法,对数据的分析不需要知道
随着互联网的快速发展,在线学习受到人们广泛的青睐,越来越多的学习者选择通过互联网进行学习。由于在线学习资源的爆炸性增长,导致学习者在进行在线学习的过程中出现“学习
企业各业务部门根据其自身发展的需要建立了相应的应用系统,由于缺乏统一规划、行业标准及其他客观原因的限制等,造成大多数系统彼此独立,“信息孤岛”现象严重。随着技术的
本文针对机器人手臂沿棋盘格运动问题展开了研究,对五自由度机器人手臂进行了运动学分析并分别求解出正运动学方程和逆运动学方程,针对机器人手臂末端沿棋盘格的运动进行了路
随着互联网技术的发展,安全问题变得越来越突出,在众多的安全问题中,隐蔽信道作为一种新的信息泄露手段,受到了科研人员的广泛重视。然而现有安全防护系统和设备并不能有效的
目前大多数应用软件中的数据访问都是采用直接向数据库发送SQL请求或通过调用数据库中预先编写好的存储过程的方式,然后将结果返回。一旦需要移植数据库,则需要耗费大量的时
心理学研究表明,人类仅从物体的轮廓片段信息就可以识别出物体。国外一些学者研究也表明,计算机也同样能够在仅有物体轮廓片段信息的基础上识别物体。本文深入研究了基于轮廓片
20世纪以来,群体智能的诞生使优化领域得到了很大的发展,学者在研究生物群体行为时候得到了启示,提出了许多基于群体智能的算法,微粒群优化算法就是其中的一种。它是一种基于群体
赤潮是我国近海常见的重要灾害之一,不仅造成了重大的经济损失,而且对海洋生态环境、资源和公众健康构成了严重威胁。目前只能通过监测和预报的手段来减少赤潮造成的损失,因