论文部分内容阅读
大数据是信息时代的里程碑,正在以巨大的能量推动着人类社会的深刻变革。随着信息技术的跨越式发展,尤其是互联网和电子存储技术,使得人类与大数据的关系更加紧密。在大数据环境下,数据拥有机构发布的有效数据能够明显改善许多社会部门的知识储备、服务质量和生产效率。然而,巨大的发布信息量可能导致有效处理能力不足,即信息超载。推荐系统的出现有效解决了这个问题,其通过对海量数据的挖掘,为用户提供了精准信息服务和个性化决策支持。在许多推荐系统中,其所使用的发布数据并未充分考虑用户的隐私保护问题,导致使用过程中可能泄露用户的敏感信息。数据发布面临的隐私泄露问题已经成为大数据应用进步的严重阻力,因为发布数据可以精确地定位到社会中的活动个体。针对上述问题,本文首先提出了一个基于位置的个性化兴趣点推荐方案。进而,本文基于个性化泛化和差分隐私,又提出一个位置推荐系统中数据发布隐私保护方案。本文的主要工作如下:1.提出了一个基于位置的兴趣点推荐方案,通过对签到数据的分析,分别计算了关于兴趣点地理特征的两个重要参数:热度值和模拟评分值,从而计算出兴趣点的评价函数值。在匹配用户的历史偏好信息后,将发起推荐请求用户与待推荐兴趣点位置之间的距离和兴趣点位置的评价函数值作为输入,执行K-支配查询算法,返回前Top-K个最佳的兴趣点位置的查询结果,然后推荐给用户。2.提出了一个位置推荐中数据发布隐私保护方案,方案中重点研究了敏感属性的泛化和基于语义的轨迹差分隐私保护。在敏感属性泛化中,根据敏感属性个数,分别提出单敏感属性和双敏感属性隐私保护算法;在基于语义的轨迹差分隐私保护中,对原始轨迹进行差分隐私保护,然后根据位置语义分类进行结果修正,生成满足(?,?)-差分隐私要求的合成轨迹,达到隐私保护的效果。3.对所提隐私保护方案分别进行了隐私性和性能表现分析。根据常见隐私攻击模型和攻击者拥有的外部背景知识来分析本文方案的隐私保护效果,并与其他的一些方案进行了比较,显示出我们所提方案的安全性更高。在性能表现分析中,测试了单双敏感属性泛化信息损失度,结果显示本文方案比已有的全局泛化方案的信息损失更低;测试了合成轨迹的计算开销和空间偏移,并且分析了方案的数据可用性,表明本文方案在保护个人轨迹位置的同时,未降低位置语义的可用性。