论文部分内容阅读
随着信息技术的飞速发展和便携式移动互联设备的广泛使用,大量的个人用户数据被互联网服务商所广泛搜集,例如由各类App所产生的位置数据、社交网络数据、个人健康状态数据等等。这些数据的搜集一方面能使得服务提供商能为用户提供更好的个性化推荐服务,但另一方面也给用户隐私带来了前所未有的挑战,一旦数据泄露就可能会威胁到用户的财产甚至生命安全。最近几年频繁发生的大规模数据泄漏事件进一步加深了人们对用户隐私数据泄露方面的担忧。因此,如何在保证隐私数据安全的前提下充分挖掘并利用数据也已成了网络安全领域的一个研究热点。差分隐私技术可以精细量化隐私保护水平,又能在一定程度上保留数据的可用性,已成为隐私保护领域事实上的标准,得到了学术界和工业界的广泛关注。针对各种网络信息系统产生的大量图数据在实际应用中所面临的隐私泄露问题,本文主要研究了差分隐私下的图数据聚类和合成图生成技术,并取得以下成果:1.针对图数据聚类分析过程中的隐私泄露问题,以一个经典的图聚类算法SCAN(Structural Clustering Algorithm for Networks)为基础,通过定义相关图的边差分隐私,并合理测定计算图中节点结构相似度时的全局敏感度,提出了一种边差分隐私下的图聚类算法DP-SCAN(Differentially Private SCAN),解决了图聚类分析过程中的隐私泄漏问题。理论分析表明,所提DP-SCAN算法满足-差分隐私,并具有很好的可用性;仿真实验表明,所提DP-SCAN算法在满足隐私保护需求的前提下,在不同的数据集上具有较高的聚类准确性,即很好地保留了原始图数据的结构特性。2.针对直接发布由真实图数据所导出的合成图带来的隐私泄露问题,提出了一种点差分隐私下基于dK序列模型的合成图生成算法,在合成图的隐私性和可用性之间进行了折中。具体而言,首先通过图投影方法降低度序列的全局敏感度,然后将压缩图的2K序列按其敏感度聚类成若干连续且互不相交的子序列,最后向各子序列中加入Laplace噪声以满足差分隐私,并利用含噪的2K序列生成合成图。理论分析表明,所设计的合成图生成算法满足-差分隐私;仿真实验表明,所设计算法在满足隐私保护需求的前提下,在不同规模的数据集上具有较高的可用性。