论文部分内容阅读
随着网络技术的快速发展,各式各样的网络应用和终端层出不穷,当人们在使用这些应用和终端时会产生大量包含用户信息的数据。这些用户信息包括性别、年龄等普通信息,也包括疾病诊断记录、位置记录、特殊商品购买记录等敏感信息。对于某些机构或者企业而言有着巨大的研究意义和商业价值,例如医院可以通过对病人的疾病诊断数据进行相应的病理研究分析发现某些疾病之间存在并发症的关联性,从而可以辅助医师更加有效地进行疾病的诊断和治疗;而某些电商企业可以通过用户的购买记录数据进行分析挖掘不同用户的购买兴趣从而实现对用户感兴趣商品的精准推送。因此数据的重要性在信息时代的今天尤为突出,研究人员也在不断的开发新的数据库来更加精准和全面的完成对用户信息的记录。特别是近些年来不同类型的非关系型数据库(例如MongoDB)不断被开发出来,在这样的数据库中往往采用具有层次结构性的标记语言(例如XML、JSON,YAML等)来对数据进行描述,因而此类数据也被称为层次数据。它们能够清晰地表示数据中存在的结构信息,因此相比于关系型数据而言具有更高的研究价值。当数据在被相关机构收集后出于研究的目的需要共享给第三方之前必须要对其进行适当的隐私保护处理,否则会造成严重的隐私泄露问题。因此数据发布中的隐私保护技术一直是信息安全领域研究的热点问题,但是目前该方向的研究主要是针对传统的关系型数据,针对层次数据的研究非常少。由于层次数据的重要性,急切需要研究相应的隐私保护模型和匿名算法来解决层次数据发布中的隐私保护问题。本文针对目前层次数据l-多样性匿名方法中存在的问题展开研究,通过对造成目前层次数据匿名方法中所存在问题的原因进行了详细的分析,提出层次数据的分级隐私保护模型和相应的匿名算法,用以解决目前层次数据隐私保护方法中所存在的同质攻击问题。本文的主要研究工作如下:(1)对传统的关系型数据和层次数据隐私保护方法的研究现状分别进行了综述和分析,指出了传统的关系型数据的隐私保护模型和方法并不能直接应用于层次数据隐私保护的场景,并且对现有的层次数据隐私保护方法中存在的同质攻击问题进行详细的阐述和分析。(2)提出了针对层次数据的分级隐私保护模型:(?_i~h,k)-匿名模型,用来解决目前层次数据隐私保护方法中面临的由同质攻击所导致的隐私泄露问题。该模型首先利用模糊集理论的思想对层次数据的敏感属性值进行敏感程度的划分,然后根据参数?_i~h对等价类中数据记录进行筛选,使得等价类中不同级别敏感属性值个数不超过给定的阈值k*?_i~h,从而增加了等价类中敏感属性值之间的差异程度,有效的阻止了由同质攻击所导致的隐私泄露问题。(3)基于所提出的层次数据分级隐私保护模型,设计了相应的实现算法。并对算法的组成模块和各模块的实现细节进行了详细的描述。然后对所提出的模型安全性以及算法复杂性进行了分析,最后介绍了层次数据发布场景的特点并设计了层次数据分级隐私保护数据发布的系统框架以及实现我们提出的匿名算法的软件体系结构。(4)通过测量匿名处理后数据集的信息损失量、等价类相异度和执行时间分别在数据的效用性、安全性以及算法执行效率上对我们所提出的和现有的层次数据匿名方法进行评估。实验结果表明我们的方法在数据效用性和安全性方面要远优于现有的层次数据匿名方法,而且在算法的执行效率方面与现有的层次数据匿名方法非常接近。