论文部分内容阅读
随着网络信息技术飞速发展,信息在人们的生活中扮演着越来越重要的角色。各行业需要从海量数据中搜索有用信息来满足自身需要。但这样有可能导致个体隐私的泄露,随之而来的是各种解决私密信息(如日常习惯、不良历史、信誉程度、以往病史等)方面的研究,以确保信息的利用在满足行业需求的同时能保证个人隐私不被泄露。在各种隐私保护模型中最具代表性的是K-匿名隐私保护模型,K-匿名经过多年的研究,已经形成了完善的理论体系。K-匿名将越来越多地应用到各个领域。为了保护私密信息,引入了匿名保护方法,但在传统数据库的应用中,数据的存在性和精确性均确定无疑。由于K-匿名数据的不确定性,使得数据的存储、查询、挖掘以及管理遇到了问题,这些匿名化数据不能被企业很好的应用并使其发挥最大的功效。因此,提高数据的可用性是K-匿名隐私保护模型亟待解决的问题,而查询是数据应用的一个主要操作。由于不确定数据本身的特性,加之现今流行的数据库管理系统均是建立在确定性数据基础之上的。传统的查询处理方法已不适用于解决在不确定数据上的查询。因此,在不确定数据上的查询处理成为近些年来研究的热点,并在众多学者的努力之下,出现了很多优秀的对不确定性数据的查询处理方法,每种方法都是在具体应用的背景下提出来,并没有一个公认的全能的查询方法。所以,根据K-匿名数据来源的特殊性以及其在与其他不确定性数据在表现形式上的不同,首先设计了一种有效的数据存储模型(多维空间模型),以实现在现有的确定性数据库中存储K-匿名这种特殊的不确定性数据。其次,寻找了一种合理的索引结构(R-tree),在K-匿名这种特殊的不确定性数据之上建立这种索引,以提高查询效率。再次,探索了一类适合K-匿名数据的查询方法,以提高K-匿名数据的可用性,满足更多种类的应用需求,定义了两种新的查询UK-Rank和NT-Rank,UK-Rank主要应用于一些需要排序的查询中,NT-Rank应用于点查询或者范围查询中,此外,还采用了Monte-Carlo积分近似计算的抽样方法来提高查询效率。最后,对UK-Rank和NT-Rank进行了相关的实验,通过实验证明了这两种方法的可用性,并对不同的数据量的查询效率进行了对比,实验结果表明,随着数据量的增长,查询耗时呈线性增长。