论文部分内容阅读
数据挖掘能够发现隐藏在海量数据背后的潜在模式以及规则,有利于我们更好的作出决策,被广泛应用于商业、科学研究以及医学研究等领域,但是如果对数据挖掘利用不当,可能会对隐私和信息安全构成威胁,因此如何将隐私保护技术与数据挖掘结合,实现保证隐私安全前提下的数据挖掘成为数据挖掘领域的研究热点之一早期的隐私保护模型如K-匿名及其扩展模型,通常需要假设可能的攻击模型,旦出现新型攻击,必须不断改进自身模型,而且无法对隐私保护水平进行量化分析,因此Dwork提出了的差分隐私隐私保护模型。差分隐私保护模型定义了一种更为严格的最大背景知识作为它的攻击模型,以坚实的数学理论为支撑,能够通过参数ε量化隐私保护水平,弥补了传统隐私保护的不足,且其添加的噪声量大小与数据集无关,因此非常适合海量数据挖掘中的隐私保护。传统差分隐私保护K-means算法,对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。因此,本文在差分隐私保护K-means中引入Canopy算法,提出了融合Canopy的差分隐私保护K-Means算法,即DP Canopy K-means算法。DP Canopy K-means算法能有效避免k值盲目性和初始点敏感性,并且能减少其迭代次数,提高聚类结果的可用性,能够应用于数据挖掘中对原始数据隐私保护和聚类结果可用性有要求的场景中。PINQ是最早为敏感数据查询提供差分隐私保护的原型系统,本文基于PINQ平台实现了DP Canopy K-means算法和IDP K-means算法,并且比较这两种算法在Magic和Blood数据集上运行的聚类结果可用性。实验结果表明,在同样的隐私保护水平下,DP Canopy K-means算法的聚类结果在准确性上优于IDP K-means算法,在收敛速度上DP Canopy K-means算法高于传统DP K-means算法。为了验证算法在实际应用中的有效性,论文以组推荐系统为应用场景,分析了组推荐系统中的隐私泄露问题,通过在组推荐算法中引入了DP Canopy K-means算法保证用户隐私安全。实验结果证明,在组推荐中应用DP Canopy K-means算法不会对推荐准确度产生大幅度的影响,在一定隐私预算值下,误差不超过3%,能够获得推荐系统中隐私保护与推荐结果的平衡。