论文部分内容阅读
在大数据时代,数据分析结果的质量主要取决于可用的高质量数据。为了保证数据分析的质量,各个机构之间共享的有序的信息变得至关重要。数据通常包含个人身份信息,因此发布此类数据可能会导致隐私泄露。为了降低隐私泄露的风险,隐私保护方法和匿名技术是必要的。保护隐私泄露最直接的方式是不将数据发布给第三方。但这种方法会影响将来数据分析过程中有趣的和有用的模式的发现。本文重点研究隐私保护数据发布的方法及其应用。对于发布关系数据,我们着重考虑已发布数据集中的隐私和数据可用性问题。当数据集发布时,由于关系数据的鉴定性质,可用的数据集会泄露用户身份信息。因此,应用匿名技术来保护已发布数据集中的用户隐私至关重要。即使应用匿名技术,通过链接和背景知识攻击等方法,发布的数据集仍然有可能泄露用户身份隐私。为了防止链接和背景知识攻击,已发布的数据集需要满足隐私模型。为了满足已发布数据集中的隐私要求,大多数模型减少了数据可用性。本文首先分析单个版本数据集中关系数据发布的隐私和数据有效问题。为了增加单个版本中的数据可用性及隐私保护,我们提出了值交换方法来匿名化发布的数据,该方法使用负关联规则来交换无效记录以满足隐私要求。值交换方法有助于增加隐私保护,并在单个版本的数据集中保持更好的数据可用性。其次,本文研究了顺序发布数据集中隐私保护问题,在顺序版本中,不同的数据发布者相互独立的发布他们自己的数据。针对使用多个独立数据集的个人隐私的合成攻击,为了保护顺序发布数据集免受合成攻击,大部分已发表的工作都使用了减少数据可用性的技术。为了提高数据有效性及防止合成攻击,我们提出了合并方法,该方法应用单元一般化方法来保护个人隐私免受合成攻击并增加数据有效性。此外,我们应用上述方法探讨了共享单车数据发布问题。为了发布共享单车数据,本文使用了相互独立多方数据发布的隐私保护方法。因此,共享单车数据集的发布将受到保护,避免了隐私泄露并增加了数据可用性。在过去几年中,隐私保护对于非关系数据集变得至关重要,例如轨迹数据。轨迹数据可以通过用户访问的地点来揭示用户的隐私,本文扩展了对非关系数据集的研究。通过基于位置服务软件(LBS)收集用户轨迹以提供所请求的服务。针对基于奖励的LBS软件中的隐私问题,提出了一种利用有界摄动技术的客户-服务器隐私模型来匿名化轨迹数据。该方法引入全球位置数据集来匿名用户轨迹,客户-服务器隐私模型和有界摄动技术保护用户隐私的同时并为匿名数据集提供更好的数据可用性。本文的主要研究内容及贡献如下:1.提出了针对单一版本数据集隐私保护的值交换方法,该方法使用否定关联规则来防止链接和背景知识攻击,并增加了已发布数据集的可用性;2.提出了针对时序数据发布隐私保护的合并方法,该方法降低了发布数据集遭受合成攻击的风险,并提高了数据有效性;3.针对共享单车数据集发布的隐私保护问题,提出了基于合并方法的分组方法,可保护用户隐私并提高已发布数据的可用性;4.针对非关系型数据集,提出了客户服务器隐私模型及有界摄动技术来匿名化轨迹数据。引入全球位置数据实现轨迹数据的匿名化,保护了用户的隐私,并提高了数据可用性。