论文部分内容阅读
文章针对公开数据集上的隐私数据保护展开研究,分析了经典的k匿名算法在处理连续发布的数据集时存在的不足,在新的应用场景下对其进行改进。文章提出的算法通过增量式的数据处理技术减少了时间开销,适用于大规模数据集的快速连续发布。算法通过为每个数据元组选择最优等价类,有效控制了信息损失。算法以敏感属性值泛化技术代替了伪造元组的引入,保证了数据集上只包含真实数据,提高了数据集的可用性。通过实例分析发现提出的算法可以很好的解决连续发布数据集上的隐私保护问题。