论文部分内容阅读
随着互联网应用的迅速发展,尤其是移动式终端和无线网络的大范围覆盖,电子商务中个人和服务提供商对信息的准确获取和传播存在着巨大需求,推荐系统作为一种有效解决海量信息带来的信息过载问题的方法得以广泛应用。与此同时,推荐系统的广泛应用使得使用者可以轻易获取大量兴趣相关的推荐信息,这些信息通常包含着个人或企业机构的敏感信息,可能被用于敏感信息的挖掘使得推荐系统存在泄露数据提供者隐私的风险。例如,恶意攻击者能够攻击目标爱好或其他关联获取推荐信息,从而推断出攻击目标的敏感信息。因此为了防止给用户带来隐私泄露的潜在风险,推荐系统通常需要对推荐结果使用有效的隐私保护方法进行数据清洗。其中,基于统计学方法的差分隐私(Differential Privacy)模型拥有严格的数学定义,能提供对抗背景知识攻击的保护能力,近年来受到研究者的广泛关注。在已有的工作中,大多数推荐系统及其隐私保护的研究都是基于数据是相互独立假设的,即独立同分布的数据。而对于非独立同分布数据,传统的保证隐私安全的推荐系统方法存在着两个方面的问题:首先,对于非独立同分布数据,数据中复杂的关联性使标准差分隐私无法对抗关联性推断攻击,而随着对推荐算法研究的深入,各种各样的相关性质被引入到推荐系统中以提高推荐效果;其次,而已有的对相关性数据的差分隐私改进方法需要增加过量的随机扰动噪声,在一些较为简单的应用场景中(例如关系型数据库)这些过量随机噪声带来的信息损失是可以接受的,但是对于使用高维且极其稀疏的数据的推荐系统来说,针对数据复杂关联性质的大量噪声的加入对推荐精度的损害是灾难性的。本文对非独立同分布数据下保证隐私安全的推荐系统问题进行研究,通过对非独立同分布数据的复杂相关性分析,提出了一种基于矩阵分解推荐算法的保证隐私安全的推荐系统方法,并对针对改进的方法提出了新的差分隐私扰动机制,以解决上述提到的两个方面问题。主要研究工作如下:(1)对推荐系统和隐私保护方法的研究现状进行了综述和分析,指出了传统的推荐系统模型和差分隐私方法在非独立同分布数据下的效用、安全问题以及技术上的挑战。基于非独立同分布环境的集中式推荐系统的场景假设,针对该场景下非独立同分布数据受到推理攻击导致隐私泄露的问题进行了详细的阐述与分析。(2)首先针对非独立同分布数据的多种复杂关联性进行了分析和归纳,使用正则化思想将非独立同分布的多相关性作为先验知识引入到矩阵分解的目标函数中,提出了一种在非独立同分布环境下的多相关性差分隐私矩阵分解方法。其次基于差分隐私的拉普拉斯机制提出了多相关性目标扰动机制,用于保证多相关性差分隐私矩阵分解方法在非独立同分布环境下的隐私安全。最后对多相关性差分隐私矩阵分解模型的隐私安全进行了理论分析和证明,以及对模型算法的时间复杂性进行了分析。(3)依照提出的多相关性差分隐私矩阵分解模型和多相关性目标扰动机制算法,具体设计并实现了该推荐系统。分析了推荐系统的需求并设计了系统的整体架构,同时对系统各个子模块的算法流程步骤进行详尽的描述,在最后分别对推荐系统各个部分和整体的算法复杂度进行了详细的分析。(4)在两个真实数据集Movielens和BookCrossing上进行了测试,通过对比传统矩阵分解和差分隐私对非独立同分布数据的一种直接改进的方法,从不同迭代次数和不同隐私等级方面,说明本文提出的模型能在非独立同分布数据获得更好的推荐效果。同时,对这两个数据稀疏程度不同的数据集,分别对实验的预测结果并做出了预测性能分析,实验结果表明了在更为稀疏的数据集中,本文提出模型的推荐结果精度更高。