论文部分内容阅读
传统的访问控制难以约束授权用户的恶意行为,使得采用这种访问控制机制的数据存储平台面临着隐私泄露的风险。另外,随着大数据的迅猛发展,Hadoop平台已成为当下最流行的大数据处理平台之一,它采用的Kerberos机制进行访问控制同样面临着隐私泄露的风险。本文主要研究基于风险的动态访问控制以及对Hadoop平台访问控制机制的改进,并实现了一种基于Hadoop平台的面向个人隐私保护的风险访问控制模型。具体研究内容可分为下面三部分:(1)提出了一种基于风险的访问控制模型。该模型通过对主体和客体标签的设定,考虑用户后期行为的风险性,根据用户的历史行为记录构造信息熵风险值函数,并进一步建立风险值波动追踪链以及风险阈值的动态分配函数,从而通过风险值及其波动幅度动态调整用户的访问权限。(2)详细地分析了Hadoop大数据平台现有的基于Kerberos的访问控制模型,即HDFS访问策略和YARN访问策略,指出了其访问控制机制存在的隐私泄露问题:认证令牌中用户持有masterKey可以访问不属于自己访问权限范围内的数据以及授权令牌的明文传输容易泄露个人隐私。本文基于细粒度访问控制改进认证令牌(Delegation_Token),并通过对称加密来对授权令牌(Block_Access_Token)的传输进行加密。(3)对隐私保护风险访问控制系统进行了设计和实现,并根据医疗数据的隐私保护场景设计了整体风险访问控制框架架构;然后基于Oozie、Spark Streaming等技术对整个系统进行了实现;最后,基于诚实和好奇医生的访问行为记录,比较双方的风险值并对系统的整体性能进行测试。