论文部分内容阅读
随着互联网和信息技术的发展,用户每时每刻都在创造数据,数据量以PB级飞速增长。大量包含个人信息的数据既要方便存取,又要保证安全。传统模式将所有数据集存储在单一的存储体系中,不管从可用性还是可靠性方面,都不再适用当前的应用需求。云存储技术的出现解决了这个问题,体现出了成本低、存储量大、易管理等等的优点。但是现有的云存储系统运行中,各种信息泄露事件屡屡发生,安全问题亟待解决。基于此,本文设计实现了基于HDFS和Spark实时监测的安全数据存储系统。主要包含数据加密、数据存储和实时检测三大功能模块。加密模块使用一种现存的基于B/S的秘钥管理方案,大大降低了数据中信息被窃取的几率。存储模块使用兼顾可靠性和可用性的HDFS。实时监测模块是本系统的核心模块,使用适用于海量数据分析的Spark,保证系统的性能和安全性。经过详细的系统功能和性能需求分析,明确了系统需求之后,针对其中实时监测方案、网络攻击识别和消息队列选择三个关键点分别进行了具体研究。(1)提出了一种基于流式数据处理的实时监测方案,实时分析每一条请求,根据分析结果执行请求,不同于现存方案分析日志的拟实时监测方法,是一种真正实时的监测方案。(2)分析了12种常见的网络攻击类型,并设计了相应的鉴别手段和Spark测试方法。并针对鉴别手段设计了一种方便增删的规则库。(3)分析了5种常见消息队列的特点,然后针对数据吞吐量,对它们进行了部署和测试。然后,根据需求分析和研究结果设计并实现了基于HDFS和Spark实时监测的安全数据存储系统。系统主要分为前端模块、后端模块和实时分析模块。前端模块负责交互和加密。后端模块负责数据处理和请求处理。实时分析模块负责请求的实时分析和处理。最后,对本系统分别进行了全面的功能和性能测试。测试结果表明,本系统不仅较好的解决了用户登录、数据加密和请求实时监测等功能问题,而且在实时监测处理速度、请求并行处理和加解密效率等方面都有较好的表现。