论文部分内容阅读
随着移动互联网和云计算的发展,现代社会各个领域产生了海量的数据,数据挖掘技术使得我们能够发掘数据的潜在价值,辅助决策并提升服务质量,而数据发布能够利用第三方的技术或公众智慧,充分利用数据价值。但数据发布产生的隐私安全问题引起公众担忧,并成为制约这一数据共享方式的瓶颈。为了在保护用户隐私的前提下发布数据,数据发布者通常将个体的标识符变换成无意义的符号,但这种基本的处理并不能很好地保护个体隐私,攻击者可以利用背景知识和其他数据推断出个体身份或敏感信息。为此,学术界提出了一系列方法来抵御这些攻击,其中,匿名化技术是一种常见的隐私保护方法。本文的主要贡献如下:第一,我们提出了基于超图表示的云服务关系数据的匿名化方法;第二,我们提出基于受限背景知识的地理社会网络数据攻击模型和匿名化算法。早期研究多集中在结构化数据上,我们总结了经典模型的优势和不足,介绍了它们的扩展,并归纳出几种具体的实现技术。随着社会网络的普及,图数据受到重视,人们将结构化数据匿名化的部分研究成果改造用来处理图数据。本文从隐私信息、背景知识、数据可用性三个方面系统地总结了社会网络中的隐私模型。超图是图的扩展形式,具有更强的表现力,也给超图的匿名化带来更大挑战。另外,超图还可以作为一种工具,用于解决其他类型数据的匿名化问题。下面具体介绍我们的主要工作。第一个工作是云服务关系数据中基于超图秩集匿名化的隐私保护技术研究。在云环境中,运营商为用户提供丰富的服务和应用,用户对服务和应用的使用关系数据具有分析价值和经济价值,这使得云服务关系数据的发布很有必要。本论文采用超图模型对云服务关系数据建模,用顶点表示用户,用超边表示服务。我们提出一种基于顶点秩向量的攻击模型,并采用匿名化方法保护用户身份不被泄露。我们设计了两步匿名化方案,首先将超图的秩集匿名化,然后由匿名化秩集重构超图。在整个匿名化过程中尽量减少对超图的修改,减少信息损失。实验结果验证了算法的有效性。第二个工作是地理社会网络数据发布中基于异构数据模型的隐私保护技术研究。地理服务是云服务的一种,移动互联网的发展,使得地理信息的价值越来越重要,地理社会网络中含有多种数据格式,是异构数据,已有的地理社会网络匿名化工作假设的背景知识太强,匿名化对数据可用性的影响很大。本论文将用户自身部分最频繁位置和用户部分好友的部分最频繁位置作为背景知识,提出两种更为实际的攻击模型和匿名模型,基于组合超图模型开发了一套完整的算法来依次实现两种匿名。我们为每种匿名化设计了实用的数据可用性度量标准,在匿名化过程中优化数据可用性,并通过大量实验做了验证了算法的有效性和数据可用性。