论文部分内容阅读
随着电子信息技术、数据挖掘技术以及移动定位技术的发展,同时获取大量的信息成为了可能。但人们在享受随意搜寻信息服务的同时,也面临着自身隐私泄露的危险。K-匿名(K-anonymity)技术作为数据与位置隐私保护的一种常用技术,能满足数据发布以及位置服务(Location-based Service,LBS)中的隐私保护需求。在数据发布中,K-匿名技术通过牺牲原始数据的质量来换取对数据隐私的保护;在位置服务中,K-匿名技术通过模糊化用户的位置信息来达到隐私保护的目的。一个性能优异的K-匿名算法能避免用户在数据发布、位置服务中因隐私泄露而遭受到不必要的损失,因此,研究K-匿名技术具有重要的理论价值及实际意义。论文围绕K-匿名技术,从数据发布与位置服务的隐私保护两个方面展开研究,深入分析了现有的K-匿名技术以及K-匿名技术可能存在的攻击,并在此基础上提出两个新的K-匿名算法,所做的主要工作以及成果具体如下:1.详细介绍K-匿名技术的概念、特点、可能存在的攻击、研究现状以及研究热点,并对K-匿名技术的常用实现方法以及常用的匿名性度量的方法做了深入研究。2.在研究最大距离平均向量(Maximum Distance Average Vector,MDAV)算法的基础上,提出了一种适用于动态数据发布的隐私保护算法,解决了传统匿名算法不适用于动态数据发布场景的问题。该算法继承了MDAV算法以距离为导向的思想。文章给出了非数值属性间距离的具体计算方法,并通过计算出的距离大小来衡量属性间相似程度的强弱。在计算距离的过程中,不仅考虑了属性间的层次关系,还考虑到属性在整个数据集出现的频度特性,这些考虑能从整体上较好地衡量非数值属性间的联系。3.针对传统位置匿名方法中存在的查询结果不精确、通信开销较大等不足,提出了一种基于分散子匿名区域的位置隐私保护算法,算法将一个传统的匿名区域分散成几个分散的子匿名区域,并用子匿名区域的中心代替子匿名区域内用户的真实位置来向服务器发起查询服务。与传统的匿名方法相比,该匿名方法能得到精确的查询结果并且能较大程度地减小通信量。4.采用熵理论对提出的位置匿名算法进行评估。以用户隐私泄露的概率为事件发生的概率,计算出熵,使用计算出的熵来衡量算法的隐私保护程度,熵值越大,则隐私保护程度越高。