论文部分内容阅读
随着大数据、物联网和社交网络的快速发展,多种大数据平台如社交App、电子商务系统、医疗信息系统等产生大规模的多源数据。不同于传统的单源数据,多源数据类型多样、内容多元化,包含更丰富、全面的用户信息,在实际生活中普遍存在。尽管多源大数据通过挖掘和分析,得到了广泛应用,但同时也引起人们对多源数据隐私泄露问题的关注。目前,加密数据成为保护数据隐私的主要手段之一,但该方法限制了数据的可用性。差分隐私作为一种可严格数学证明的隐私保护技术,通过降低一定程度的数据可用性,对多源数据进行加噪模糊来保护隐私。平衡多源数据的可用性和隐私保护已成为现实中迫切需要解决的研究课题。本文深入研究了四种典型的多源数据场景(个性化医疗、踪迹社区推荐、空间众包、社交话题推荐)下的差分隐私保护问题,主要包含以下四方面工作和创新点:(1)针对个性化医疗中已有差分隐私方法仅保护多源基因数据发布的基因型或表现型隐私,不支持查询隐私保护和基因匹配等问题进行研究。本文首次提出了一种基于差分隐私的基因匹配方案DPGM(Differential Privacy-based Genetic Matching),同时保护多源基因数据发布和查询隐私,且取得高数据可用性的基因匹配。首先,为同时保护基因数据发布的基因型和表现型隐私且支持基因匹配,提出了一种基于差分隐私的EIGENSTRAT算法对多源基因序列的EIGENSTRAT统计进行加噪,选择含噪声的显著单核苷酸多态性SNPs数据构造噪声发布序列。其次,由于单个查询序列无法满足差分隐私,采用汉明距离构造查询序列的相似数据集,提出了一种新的基于差分隐私的N阶马尔科夫算法产生含噪声的Markov短序列,确保了数据可用性。为降低存储开销,基于四叉树结构,构造与真实查询具有最大噪声频次的噪声查询序列。最后,为获得有效匹配结果和降低系统开销,提出了一种基于最长公共子序列的基因匹配算法计算发布序列和查询序列的最长公共子序列。安全性理论分析证明了DPGM方案满足ε-差分隐私。该方案的实验评估结果显示基因匹配的数据可用性高达86.629%,可以取得有效的匹配结果。(2)针对踪迹社区推荐中已有差分隐私方法依赖可信第三方保护多源踪迹数据隐私且数据可用性不高的问题进行研究。本文首次提出了一种基于差分隐私的踪迹社区推荐方案DPTCR(Differential Privacy-based Trajectory Community Recommendation),以实现踪迹隐私本地化保护,同时执行有效的踪迹社区推荐。为本地化保护踪迹隐私而不依赖第三方,提出了一种基于语义期望的位置模糊算法,将踪迹的真实位置模糊为具有最大语义期望的噪声特征位置,取得较高的踪迹语义相似性。同时提出了一种基于地理距离的踪迹构造算法,构造和真实踪迹具有最小地理距离的噪声踪迹,确保了噪声踪迹数据的可用性。为取得高质量的踪迹社区推荐,提出了一种基于语义-地理距离模型的踪迹聚类算法,将与用户踪迹具有高相似性的噪声踪迹聚类到社区中。严格的隐私理论分析论证了该方案取得ε-差分隐私,且实验结果显示DPTCR方案的数据可用性较已有先进算法提高3.05%左右,提升了踪迹社区推荐服务质量。(3)针对空间众包服务中已有差分隐私方法仅保护多源工作者位置隐私而没有保护多源任务位置隐私问题进行研究。本文为同时保护任务和工作者位置隐私且分配有效的任务,提出了一种基于差分隐私的任务分配方案DPTA(Differential Privacybased Task Allocation)。针对多源工作者位置分割粒度不均衡带来的低数据可用性问题,首次提出一种自适应三层网格分解算法将工作者网格自适应分割为三层网格,确保分割的网格粒度既不稀疏也不稠密。为保护任务位置隐私,首次提出一种基于差分隐私的自适应完全金字塔网格算法,将任务位置区域自适应分割为多层噪声网格。为降低工作者移动距离和系统开销,提出了一种优化贪心算法计算任务网格附近的Geocast区域。为取得有效的任务分配,提出了一种基于二项分布的任务接受率模型确保任务的高接受率。安全性分析证明了该方案遵循ε-差分隐私。实验性能结果表明了DPTA方案的数据可用性超过86%,可以分配高质量的任务。(4)针对社交话题推荐中已有差分隐私方法没有本地化保护多源文本社交内容隐私且不支持动态社交内容安全发布等问题进行研究。为本地化保护文本社交内容,并取得高质量热点话题推荐服务,本文提出了一种基于本地差分隐私的热点话题推荐方案。首次考虑社交关键词的相关性隐私,提出了一种基于图的本地差分隐私算法将高相关性的关键词聚类到图类中并添加Laplace噪声。为打破高维本地差分隐私带来的低数据可用性诅咒,首次提出一种压缩感知不可区分性机制将高维社交数据降维,对社交话题添加可控的噪声。为支持动态社交内容安全发布且确保数据可用性,提出一种基于动态图的压缩感知不可区分性算法,采用隐私预算分配概率模型模糊在线社交内容。为确保高质量热点话题推荐,提出一种基于话题分布相似性模型的话题突发性算法,将与用户噪声话题分布相似度高的热点话题推荐给该用户。基于安全性和理论性能分析,该方案可以提供高效的本地差分隐私保护。真实Twitter数据集上的实验结果表明了该方案在提供高隐私保护水平下,热点话题推荐的数据可用性高达88%以上。