论文部分内容阅读
近几年,随着信息的爆炸式增长,大数据时代来临,作为海量数据存储与计算的Hadoop技术逐渐成为热门应用,Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,相较于企业传统的通过购买昂贵的、高性能的大型服务器来对大量数据进行处理,Hadoop更具性价比,因为它可以搭建运行在廉价的商用机器集群上,通过分布式数据存储和计算框架来完成对大数据的存储计算。正是因为Hadoop自身所具有的高可靠性、高扩展性、高效性、高容错性等优点,它逐渐成为大企业及研究机构的研究焦点。但随着Hadoop应用的扩大加深,其安全问题也日益凸显,Hadoop在数据存储及数据处理等技术领域存在的不安全因素,让许多亟待使用它的企业望而却步。本文从Hadoop2.0版本中的核心子项目HDFS和YARN入手,分析其在服务过程中的认证和授权机制,对当前所采用的基于Kerberos和基于非对称加密的Token认证机制、传输加密机制、基于Linux/Unix系统自带的访问控制机制进行了详细的分析,归纳这些安全措施在安全性及效率性两方面存在的缺陷,并在此基础上提出了新的安全框架。本文的创新点:1、本文提出将基于PKI的数字证书认证技术代替原有的Kerberos认证,并利用基于非对称加密的公私钥原理设计全新的、更加安全、更加有效的认证令牌。2、将基于数字信封的AES对称加密技术应用到Hadoop2.0安全传输加密中,兼顾了Hadoop数据传输过程中的安全性和效率性。3、针对Hadoop集群多用户、大数据、多线程的服务特点,本文提出了更灵活、更严密的基于角色的自主访问控制机制,并使用ACL技术实现。相比于原有的简单的授权管理,本文所提出的授权管理方案系统开销更小、权限判定更加简洁、授权管理更加严密,并且更加适应Hadoop2.0的安全策略。