论文部分内容阅读
随着信息化的高速发展,因特网上的信息变得越来越杂乱无章,人们从因特网获得需要的信息变得越来越难,这是因为因特网在给人们提供有用信息的同时还会给人们提供一大堆冗余信息。因此,如今,从海量信息中获取对自己有利的信息对人们的工作日益重要,为此,专家学者开辟了数据挖掘研究领域,目的就是研究如何利用计算机高效地完成对信息的搜索以得到人们想要的信息。目前,数据挖掘已经体现出了它的价值,各类搜索引擎的出现,各种信息挖掘技术为人们解决了很多问题。但是,随着数据挖掘的应用,有个现状日益引起人们的重视,即隐私泄露问题。目前已有文献针对静态数据集和动态数据集的隐私保护问题进行了研究。本文在指出已有文献算法的不足基础上,对还未解决的问题提出解决办法。本文的主要研究工作如下:1)为多敏感属性数据集提出隐私保护算法。已有的文献虽然针对了静态和动态两类数据集,但是它们都是假设这两类数据集只有一个敏感属性,而我们现实生活中,一个数据集往往会有多个敏感属性,本文在分析了多敏感属性数据集的特征后,设计了多维数组分组技术,同时在这个技术基础上提出了三种贪心分组策略来对多敏感属性数据集进行隐私处理。最后,实验通过改变三个参数,即数据集大小、1参数和敏感属性个数,来观察三种算法的运行效率。2)为多敏感属性数据集重发布问题提出解决办法。已有文献对动态数据集的重发布进行了研究,但是都是基于单敏感属性数据集,本文借鉴了它们的算法思想,将它们改进后应用于多敏感属性数据集的数据重发布问题中,结合前面已讨论的多敏感属性数据集的隐私保护算法,提出一个适用于多敏感属性数据集重发布问题的隐私保护算法。本文在提出解决办法的同时,还给出了隐私风险披露的估算方法,提出了SCG图概念,为后面算法的理解提供工具。最后,本文对每个算法进行了实验,验证了本文提出的算法是可行的。