论文部分内容阅读
随着网络经济时代的到来,推荐系统已经渐渐深入到人们的日常生活中。急剧增长的网络数据,使得用户(消费者)往往难以发现最需要或者最适合自己的信息,拥有一个可靠的推荐系统意味着能提供更方便更吸引用户的服务,而协同过滤是当前推荐系统中一种主要的推荐算法。协同过滤通过用户对项目以往的评价来判断两个用户之间的相似度,然后根据目标用户的相似用户的评价记录来产生推荐。这种推荐方法被广泛的应用于当前的个性化推荐服务中,但是由于推荐系统需要获得用户个人信息以及相关行为,因此推荐系统在应用的过程中存在泄露个人敏感信息的可能。为了能在使用和共享数据的同时保护个人隐私信息,目前采用的隐私保护技术主要包括k-匿名和差分隐私两种保护模型,而且已经有一些研究将k-匿名模型或者差分隐私应用到协同过滤推荐中以保护用户的个人敏感信息。就已有的研究结果来看,由于k-匿名模型的思想简单,对数据的操作不复杂,所以其在协同过滤中的应用会比较容易实现,但是实验表明由于电子商务数据中每个标签所包含的项目过多,使得数据在被泛化后的效用性难以得到保证;最新应用差分隐私到协同过滤推荐的方法的隐私性和推荐准确性都有一个很好的保证,但是一旦处于动态环境下时,根据差分隐私的序列组合性,随着数据发布次数的增多会导致每次数据发布能消耗的隐私预算相应的减少,从而使得添加的噪声难以控制。围绕协同过滤面临的隐私安全问题,本文开展研究如下:首先,我们介绍了推荐系统的研究现状,将协同过滤推荐算法作为例子和研究对象,描述了该算法的主要过程和实现这些过程的一些主要方法,并说明了协同过滤算法的主要的优缺点——其中影响推荐系统发展的最主要的一个挑战就是用户信息安全问题。其次,分析了协同过滤面临的隐私泄露问题,描述了推荐系统面临的信息泄露原理和方式,比如服务器收集、员工泄露、设备残留数据泄露和推荐泄露等,我们的研究主要针对推荐产生的隐私安全问题。对这种类型的隐私安全问题我们描述了一个包含攻击者的攻击目标、背景知识、攻击方式、隐私泄露定义等的攻击模型;此外,我们还介绍和分析了当前数据隐私保护的两种主要的匿名保护体系:k-度匿名系列和差分隐私保护体系,以及其在推荐系统中的应用和其不足之处,并从数据的效用性和隐私性等方面,分析了主要的隐私模型评价标准。再次,针对协同过滤面临的隐私问题,我们对现有算法的安全性进行了分析,给出了当前隐私问题的安全模型,并根据当前隐私问题的安全模型和实际应用中推荐系统对精度和隐私度需求,通过结合两个匿名体系—k-匿名和差分隐私,给出了一种改进的ρ-混合隐私保护推荐模型;根据该模型,设计了相应的隐私保护p-混合隐私保护算法。这种算法主要在目标用户的k近邻居的选择上加以项目评分多样性的限制,并使用拉普拉斯加噪的邻居相似度进行加权推荐。这种算法可以有效的抵御KNN攻击,并在动态发布的环境下保持良好的推荐准确性和隐私性。最后,基于提出的模型和改进的算法,结合多次发布推荐结果的实际推荐需求,实现了一个适应多次发布的隐私保护推荐系统,并在几个真实数据集上,通过对比实验验证了该隐私保护方法的有效性,在保证数据隐私保护力度的同时提高了数据的实用性。