大数据集群-hadoop的安全防护

来源 :中国新通信 | 被引量 : 0次 | 上传用户:jianqing3232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    大数据产业是目前国家信息产业的重点发展方向。越来越多的单位和企业都开始使用大数据系统存储重要且敏感的数据,这些数据是企业长期积累的财富,必须严密保护。但是大数据系统也带来了全新的安全挑战,如果不能很好的应对这个挑战,企业的数据就会面临巨大的风险,势必会影响人们使用大数据系统的信心。
  【关键词】    hadoop安全    大數据安全    计算机集群安全    组件安全
  一、Hadoop面临的安全挑战
  大数据产业是目前国家信息产业的重点发展方向。越来越多的单位和企业都开始使用大数据系统存储重要且敏感的数据,这些数据是企业长期积累的财富,必须严密保护。但是大数据系统也带来了全新的安全挑战,如果不能很好的应对这个挑战,企业的数据就会面临巨大的风险,势必会影响人们使用大数据系统的信心。
  Hadoop集成了数据采集、数据存储、数据分析、数据展示等各方面的多个组件,是目前最常用的处理大数据的架构。但hadoop的安全性是比较差的,因为hadoop设计初衷是为搜索引擎建立网页索引,本来是在企业内部可信环境下使用的,安全并不是其重点考虑的问题,加上hadoop服务组件众多,所以hadoop平台天生就有认证分散,弱授权、弱审计且分散的特点,给安全工作带来很大的不便。它面临的安全风险主要体现在以下几个方面:
  1.具有集群规模大、内部互信度高的特点,集群内部机器存在SSH免密登录的问题,因此只要集群内部一台机器被入侵,往往整个集群都沦陷。2.系统是为了数据共享,所以是开放的,与之交互的外部应用系统和用户也可能是动态变化的,这会给大数据系统认证和权限管理带来很大麻烦。3.系统组件多,且各个组件弱认证、弱授权、弱审计,存在着很大的安全风险。4.系统内部能够动态扩容,新加入的机器也可能会带来新的安全隐患。5.系统的存储、传输都采用明文形式,很容易造成信息泄露。
  二、Hadoop安全防护研究
  针对hadoop集群规模大机器多、内部互信度高(存在SSH免密登录)的特点,我们设计了封闭的大数据集群安全架构。用户不能直接访问大数据集群的任何一台设备和服务,所有服务都通过映射关系在安全系统上提供接口给用户,也就是说必须通过安全系统才能访问大数据里的服务。这样大数据集群里的任何一台机器都不会直接暴露在攻击者面前,避免了一台机器有漏洞被入侵导致整个集群被控制的情况出现。
  hadoop集群各个服务组件用户认证不统一,而且有的服务根本不需要认证,在集群规模不断变化的情况下很容易造成身份认证管理的混乱,给集群的易用性和安全性带来很大风险。我们需要提供统一身份认证,解决了身份认证管理的混乱的问题,大大提高了集群的安全性和易用性。
  hadoop大数据集群各个服务组件有多个不同访问方式,由于入口众多,给用户审计带来了很大的麻烦,往往只有部分组件的单独审计,无法做到全面审计。我们需要实现全面审计,清晰的展现出哪个用户在什么时间访问了哪个服务,进行了什么操作,结果如何,并提供统一的界面查询。
  三、大数据安全桶架构和实现原理
  系统架构图如下:
  大数据安全桶从架构上分为以下几个模块:
  3.1数据代理模块
  是用户和大数据信息交互的桥梁,将外部的用户访问请求转发给大数据集群,然后将大数据集群的响应重写后返回给用户。
  数据代理模块是整个解决方案的核心模块,它是用户访问大数据集群的入口,用户不能直接访问大数据集群的任何一台设备和服务,只能通过代理模块才能访问,这样就实现大数据平台的边界安全控制,实现了封闭的大数据集群安全架构。
  代理模块提供了RESTFUL API和WEB UI访问接口,接管所有用户请求(如WEB UI访问、HDFS内容查看、Hive/HBase数据操作等),并把大数据集群组件返回的响应转发给用户。代理模块使用TLS加密传输协议,确保用户数据在传输过程中不会被非法窃取。
  数据代理模块还通过其他模块一起为用户提供身份认证,访问授权和应用访问审计功能。比如通过身份管理模块接口为用户提供身份认证功能,通过访问控制模块提供细粒度的访问权限控制,为大数据应用审计系统提供用户请求记录。
  数据代理模块还可以根据规则过滤掉不正常的数据流,防止恶意用户对大数据集群的攻击。
  3.2账户管理和认证模块
  集中保存了大数据集群的用户身份信息,并提供身份认证功能。
  账户管理和认证模块统一管理整个平台的用户及应用账号,采用LDAP技术,提供LDAP目录访问协议接口,解决方案的其他各个模块可以通过接口进行用户身份认证和获取用户账号信息。
  LDAP这种轻量级目录访问方式共享认证已成为一种行业标准,大多数系统均支持LDAP的认证方式,例如kerberos、knox、Ranger。
  LDAP主要特点:1.简单;2.树形结构;3.有权限控制(ACL);4.schema来控制数据结构;5.可以安全访问(STLS或者SSL);6.有简单的LDAP语法。
  采用LDAP方式为以后系统扩展提供了方便。
  3.3访问控制模块
  对用户访问权限进行控制,决定用户能访问集群里的哪些服务。
  访问控制模块提供细粒度的访问权限控制,决定用户对集群中各个资源有什么类型的操作权限。
  访问控制模块主要由以下三个部分构成:
  Server: 以RESTFUL形式提供策略的增删改查接口,同时内置一个Web管理页面。
  Plugin: 嵌入到各系统执行流程中,定期从Server拉取策略,根据策略决定用户请求是否放行。   UserSync: 定期从平台身份管理系统的LDAP接口中加载用户,上报给Server,实现用户身份的统一管理。
  3.4审计模块
  记录和展示用户的对大数据集群访问信息,为统计、追溯提供依据。
  审计模块主要是审计外部用户访问大数据系统产生的日志,为用户画像等功能提供原始分析數据。
  审计模块采用大数据分析技术架构,针对Apache Hadoop, Hive, HBase, Storm, Solr, Kafka, YARN, Spark, ElasticSearch等大数据应用操作。
  在大数据共享开放平台日常业务运行及安全维护中会产生大量的数据,其中包含了大量的有用信息,审计模块通过采集各个组件运行过程中产生的数据,基于强大的关联分析引擎,提供全维度、跨设备、细粒度的关联分析,还原事件背后的信息,为客户提供真正可信赖的系统现状和事件追责依据。协助用户全面审计大数据系统整体安全状况。平台的数据也可为后续的用户画像等应用提供数据,提高相关工作的准确性和效率。
  3.5WEB控制台
  大数据安全桶的用户交互界面。主要提供以下功能:
  用户认证:提供用户名和密码输入框用于身份认证,提供导航链接访问各个组件WEB UI管理界面,还提供连接手册通过API方式访问组件。
  统计仪表盘:通过仪表盘展示目前受保护的集群数量、集群内服务组件数量、本日会话、本日访问、本日有效攻击数量等信息。
  访问统计:通过趋势图和饼图的方式展示一周访问量趋势、一周会话量趋势、一周集群访问TOP5、一周用户访问TOP5、一周服务访问TOP5等信息。
  攻击记录:列出对集群的攻击行为,可显示攻击发生时间,攻击名称,被攻击的集群等信息。
  系统配置:提供添加、修改、删除用户,访问授权等管理功能。
  四、大数据安全桶的操作流程
  4.1用户使用流程
  用户要访问大数据集群,首先登录大数据安全桶进行身份认证。在安全桶系统里,用户可以看到自己能访问的集群和组件,然后点击组件旁边的按钮就能访问对应组件的WEB UI。点击组件旁边的另一个按钮可以看到该组件REST API访问方法,包括路径、用户名密码等,用户可以根据提示使用API跟大数据集群的组件进行交互。
  4.2大数据安全桶管理流程
  管理员首先通过身份认证进入安全桶系统,在安全桶里,管理员可以添加要保护的集群,集群包括节点和组件的信息,配置安全桶和大数据集群各组件的映射关系。添加要访问大数据集群的用户,并设置这些用户的访问权限。配置好后,用户就能使用账号登陆安全桶访问大数据集群了。
  4.3大数据安全桶监控流程
  安全人员登录大数据安全桶进行身份认证,在安全桶主页上通过图表等形式展示各集群、组件的访问情况,以及黑客对大数据集群尝试攻击情况。通过审计页面可以查询用户访问大数据集群的详细数据。
  五、大数据安全桶部署方式
  部署主要分为两个步骤:
  首先封闭整个大数据集群,集群里的每个节点外部都不可访问,这样每个节点即使有漏洞也不会直接暴露在攻击者面前,大大提高了整个系统的安全性。
  然后部署大数据安全桶系统,将安全桶与大数据集群联通,使安全桶成为访问大数据集群的唯一通道。我们在安全桶上集成了用户认证、访问控制、访问审计、集群内部监控等安全功能。用户在安全桶上就能实现整个集群的安全加固和审计监控。
  大数据安全桶分LDAP用户帐号管理服务器,大数据安全网关模块、web交互页面服务三个部分组成。三部分可以部署到同一台服务器上,也可以分开部署,通过网络相互通信。
  LDAP服务器是目前比较常用的身份认证系统,多个应用系统可以通过LDAP实现统一身份认证,大数据安全桶采用LDAP实现一个或多个安全网关模块的身份认证。
  安全网关模块是安全桶的核心模块,预留了多个安全网关并联部署的接口。
  web交互页面服务为大数据安全桶提供用户交互页面,用户通过web页面使用安全桶提供的各项功能。
  安装好大数据安全桶后,先将hadoop集群与外界阻断,只有安全网关模块可以访问集群,然后通过安全桶的集群管理功能添加集群和组件,并建立各个组件的映射关系。最后可能要修改下用户原来的连接URL,因为原来的通路已阻断,必须通过安全桶访问。
其他文献
【摘要】 本文为满足民办高校人才培养方案制定的参考分析数据需求,提出了基于Kudu+微服务技术支撑的人才培养方案制定与课程管理软件系统架构的研究与设计。  【关键词】 Docker 高可用 架构  引言:  民办高校人才培养方案的制定、管理,以及课程按人培的实施过程是高校教学的一般规律和方法。可以通过应用大数据技术对其方案制定的决策方向提供有效的数据参考支撑。利用微服务架构风格设计人才培养方
【摘要】 信息技术革命日新月异,世界正在进入以信息产业为主导的新经济发展时期,互联网真正让世界变成了地球村,让国际社会联系越来越紧密。与此同时,我国进入“互联网+”时代,各行各业参与其中的人逐年递增。互联网的迅速发展使交易、沟通、学习等日常生活中的各个方面更加便捷,但同时也存在一定的隐私泄露风险。在本文中,我们将“互联网+”时代人们生活的变化进行了介绍,并且列出了隐私泄露问题出现的原因,然后在国
【摘要】 现如今,随着世界范围内经济水平的快速发展以及科学技术水平的不断提升,多个行业以及各地政府开始重点关注计算机网络系统的可靠性与安全性。随着信息化时代的来临,计算机网络安全问题将对用户的使用以及网络的正常运行产生十分重要的影响,一旦出现安全问题不仅会影响计算机用户的正常使用,严重时甚至威胁社会与国家的安全,引发十分严重的经济损失。本文研究了新网络环境下的计算机网络安全防控策略。  【关键词
本系统设计制作了四旋翼自主巡线无人机.该系统包括STM32F103RCT6开发板为控制核心即飞行控制模块、OPENMV视觉循迹模块和超声波模块.OPENMV视觉循迹模块负责采集并处理图片,将处理好的路径信息传输给控制核心,超声波模块负责测量无人机离地高度,并传输给主控,各测量模块与飞行控制模块通过串口保持实时通信,飞行控制模块根据反馈的实时信息,控制电机完成自主巡线飞行.[1].
【摘要】 社会经济的发展,科学技术的进步,使得计算机成为人们日常生活与工作中不可或缺的工具。为了保证计算机网络安全,需要利用良好的防护措施和手段,对潜在的风险因素进行控制与管理,防止出现信息泄露、更改等问题,以免造成严重的形象和财产损失。本文就从安全问题、作用意义、技术分析及应用的角度阐述计算机网络防火墙技术安全与对策,希望能对个人、企业安全使用计算机网络提出一些合理化建议。  【关键词】 计
【摘要】 互联网时代下,信息技术的发展推动了各行业发展,同时也提高了智能化建设水平。在此形势下,提高医院信息化建设速度不仅能够切实解决民生问题,还能为后续建立智慧医院奠定稳定基础。在以一体化的医疗服务体系为核心的基础上,创设信息系统平台、提高医疗服务水平和质量,是促进医院持续稳定发展、实现环境改善目标的重要表现。因此本文立足于医院信息建设,通过概述大数据技术、信息建设必要性以及相应措施,为确立信
【摘要】 当前已有六个省市的IPTV集成播控分平台取得IPTV集成播控服务牌照,其他省市的IPTV集成播控分平台与当地电信运营商传输系统的规范对接工作仍在开展。“双认证、双计费”是规范对接工作的重要组成部分,本文以其中的产品订购双计费流程为例,阐述什么是“双认证、双计费”,希望对IPTV业务相关工作人员有所启示。  【关键字】 IPTV 认证 鉴权 计费 订购  引言:  IPTV(交
【摘要】 如今现代科学技术发展速度非常快,不仅为我国各行业发展提供了技术保障,还衍生出很多新风险与挑战。云计算技术是促进现代社会发展的重要技术动力之一,不仅能提供一个稳定高效的技术平台,还能保证工作速率和管理效果。医疗事业一直是稳定我国发展的基础行业,也始终贯穿着民生热点问题。医院为为了提高发展速度,增强与时代的适配性,开展信息建设工作是必然趋势,云计算技术是简化医疗信息数据管理方式,提高信息建
【摘要】 铁路机车能够保持稳定运行依靠的是完整的运行控制传输系统,而在其中铁路信号轨道电路扮演着极其重要的角色,它能随时监控车辆的运行轨迹和状态,因此避免铁路信号轨道电路发生故障是极为重要的工作。铁路信号轨道电路的作用是检查车辆是否占用了某一区段的线路,以及钢轨的完整性,然后将检查的信号向机车传传输,以此为机车运行提供必要的信号支持。因此轨道电路保持稳定状态就显得尤为重要,但在日常运行当中,铁路
【摘要】 我国提出数字中国战略发展目标,落实国家决策部署,提出建设数字电网的发展策略。联合信息化现状,建立电网单位数字化平台,优化系统功能与结构设计,服务于工程评审与基建施工,仅供参考。  【关键词】 三维全景 電网数字化建设 研究应用  近年来,关于建设网络强国的进程加快,以新型数字技术为代表,全面促进电网数字化转型。国网企业发展中,注重输变电三维设计、工程数据中心建设。为了积极响应数字