论文部分内容阅读
随着信息技术的发展,各个组织机构需要发布的数据越来越多,这些数据包含的隐私也越来越多,所以在发布数据之前需要对该数据进行一些处理,以免造成更多的隐私泄露。近些年,学者们对数据隐私保护模型的研究非常活跃,他们提出了一些模型,如K-匿名模型、L-多样性模型、t-closeness模型等数据保护模型,但是这些数据保护模型造成的数据损失比较大,本文主要对t-closeness模型进行了研究和改进。为此,本文做了以下工作:首先,综述了隐私保护、聚类算法、粗糙集等与论文研究内容相关的理论。其次,对t-closeness模型进行了改进,提出了基于聚类的改进的t-closeness模型,该模型主要针对t-closeness模型数据损失比较大这一缺点进行了改进。首先利用密度度量进行聚类减小了聚类过程中的信息损失,提高了数据的利用率,有效的保护了隐私。但是在实验的过程中发现使用该聚类方法对一些字符型数据聚类效果不是很明显,然后对密度度量又进行了改进,提出了基于粗糙集的K-最近邻算法。粗糙集在处理字符型数据方面有着独特的优势,利用粗糙集达到了较好的聚类效果。最后,以上模型都是针对单敏感属性进行保护,但是在实际应用中,敏感属性不可能仅仅是单一的,在待发布的数据中可能存在多敏感属性。所以本文最后提出了一种基于多敏感属性的t-closeness隐私保护模型。该模型把敏感属性分为两种:第一敏感属性和第二敏感属性。分别为这两种敏感属性设置不同的阈值t,使得各自满足不同阈值的t-closeness模型。