论文部分内容阅读
目前,很多机构都以k-匿名的形式来发布数据。k-匿名隐私保护模型也越来越多的应用于各个领域。k-匿名数据是一种特殊的不确定性数据,它的元组泛化成每个可能性世界实例的概率是相等的,并且有k条元组的准标识符都是相同的,外界攻击者很难通过外表的连接来对数据进行攻击,所以k-匿名隐私保护模型能很好的保护用户的隐私。但是也由于它的特殊性,这种数据的可用性也就大大降低了,即使使用了最优化的k-匿名算法,也不可能产生令人满意的完全精确的数据,因此,不仅要在k-匿名算法上来做文章,更亟需找出一种可以对这类数据进行数据挖掘的方法来提高k-匿名数据的可用性。数据的世系描述了数据的产生及变化的过程,它应用于数据挖掘、数据核查、数据恢复和引用等很多领域。k-匿名数据是由确定值根据相应的泛化树派生出来的,因此,k-匿名数据的世系包含泛化树及派生规则,它描述了静态数据源(即原始表)通过泛化树进行演化,最终得到k-匿名表的过程。通过对k-匿名数据生成过程的分析,每一个k-匿名表都是原始数据表通过特定的泛化树泛化而来的,提出了泛化树的形式化定义,并在这个基础上,从一个数据接收者角度对泛化树做出了分析,提出了泛化树的构造算法,使接收者能够更方便有效的对数据进行挖掘分析工作。关联规则挖掘算法是数据挖掘中一个基础的、重要的方法,它的目的是在大量数据中发现项集之间的有趣的联系。现在很多研究学者对不确定性数据的关联规则挖掘算法都已经有了一定的研究成果,产生了不少优秀的算法,但是,这些算法往往都是在元组还原成可能世界实例的概率不等的基础上提出的,并不适用于k-匿名这种特殊的不确定性数据,为了解决这个问题,把k-匿名数据的世系应用到挖掘中去,提出了针对k-匿名数据的挖掘算法——基于泛化树的关联规则挖掘算法。它包括了k-项集的期望支持度算法和置信度算法,前者用于找到频繁项集,后者用于产生强关联规则。该算法与传统的确定或不确定数据的关联规则挖掘算法相比,对于处理k-匿名数据,在时间复杂度上有了极大的改善,提高了挖掘效率。实验结果表明,文中提出的算法是一种有效的处理k-匿名数据集的方法。