论文部分内容阅读
信息时代的高速发展,越来越多的数据被人们共享使用。在各种网络上,人们可以轻易地搜集到许多发布出来的信息,甚至有很多信息未经过隐私保护便被发布出来,从而侵犯了个人的隐私。这些问题越来越受到人们的重视。如何能使发布的数据既能隐藏个人隐私,又能保证数据的可使用性,使得搜索数据的人员能从得到的数据中挖掘出自己需要的知识便成为很多专家学者研究的目标。 本文对基于聚集的k-匿名算法的实现和k-匿名模型进行了研究。对现有的微聚集算法进行分析研究,具体对性能较好的定长微聚集算法MDAV算法进行研究。为了实现l-diversity规则的k-匿名算法,提出了l-diversity-MDAV算法。实验结果表明,该算法能降低泄密风险,使得攻击者从得到的数据表中推导出原数据表中数据的风险降低。针对l-diversity-MDAV算法执行时间长的缺点,将c-modes算法引入进来。将c-modes算法与MDAV算法相结合,提出了CLM算法。该算法对数据集进行两次聚类,利用分治法(Divide and conquer)的思想将大规模数据集划分为几个较小规模数据集进行k-匿名运算。该算法能有效降低执行时间,并能降低泄密风险。分析MDAV算法,在划分等价组时是通过元组间的距离来划分。该方法虽然简单,但是没有注意到记录元组之间的密集度。在MDAV算法的基础上,提出了改进算法。改进算法利用贪心算法的思想,根据元组的邻域密度为参数计算每个等价组的中心元组。改进后的算法能有效降低信息损失量。本文提出的三个改进算法从三个方面对传统k-匿名算法进行了改进:l-diversity-MDAV算法有效实现了l-diversity规则,CLM算法有效改进了k-匿名算法的效率,改进的MDAV算法则大大降低了k-匿名化的信息损失量。