论文部分内容阅读
随着网络数据信息时代的快速发展,数据挖掘技术可以从大量数据中发现对人们切实有用的信息,以便研究人员对这些信息进行分析。但是在对数据进行挖掘产生知识和给人们现实生活带来便利的同时,用户的敏感隐私信息难免不会出现泄露。虽然现在已有很多关于分类挖掘隐私信息保护的方法被提出,但无论对隐私信息采用哪种方式进行保护,都会对用户原数据信息产生不同程度的破坏。因此,如何确保在保护用户的隐私信息不被泄露的同时又能够最大限度的保证分类数据可用性问题,是近年来数据挖掘隐私保护领域中研究的热点问题之一。本文首先概述了分类挖掘中隐私保护方法的研究背景、意义和国内外研究现状,详细阐述了关于K-匿名处理经典模型和隐私匿名分类挖掘相关技术;其次,在考虑不同准标识符属性对敏感属性产生不同分类有效程度方面,提出了一种面向权重属性熵的分类匿名保护算法,该算法采用了信息熵的概念来衡量不同准标识符属性对敏感属性的分类重要程度,计算最优权重属性熵对数据进行有利的分类,并给出了隐私匿名信息损失度量标准,根据分类信息和匿名损失信息来构建分类匿名保护度量,以此来保护数据隐私性和可用性;再次,在保证数据安全性和可用性平衡的基础上,针对属性过度匿名情况而影响数据质量损失的问题,提出一种面向属性匿名策略的分类隐私保护算法。该算法结合了匿名泛化层次和最优划分属性的策略来降低属性过度匿名带来的信息损失,从而在进行属性匿名时,采用了分类杂度指数来选择最优划分,对数值属性和分类属性进行有利的匿名分类处理,并将其分类匿名到适合的度量,以此来减少过度匿名情况,保证分类数据可用性。最后,对提出的两种算法进行实验验证其有效性,使用经典算法进行对比。实验结果分析表明,这两种算法均能够更好的保持用户隐私敏感信息的同时还能够高效的保证了数据可用性。