论文部分内容阅读
隐私保护数据挖掘近年来已成为数据挖掘领域一个活跃的研究方向,其研究主要有两方面的目标:一方面是为防止隐私信息的泄露提供有利的技术保障,消除信息拥有者在信息共享时的顾虑,促进信息交流和共享;另一方面是减少实施隐私保护过程所带来的信息损失,保证信息在数据挖掘领域的可用性,即在隐私保护和数据可用性之间达到一个较好的平衡。
本文的研究集中于在隐私保护过程中减少信息损失,以保证隐私保护处理后的数据在分类领域的可用性方面。本文首先总结了数据挖掘领域中已有的隐私保护方法以及在分类领域的研究情况,然后重点讨论了一种新的隐私保护方法l-多样化模型。针对利用l-多样化模型对数据进行隐私保护可能导致数据在分类方面可用性下降的问题,本文提出了一种适合分类数据的l-多样化模型实现算法L-BottomUp,L-BottomUp算法采取自底向上概化的方式搜索满足要求的l-多样化数据表,同时在概化的过程中保护对分类有利的信息。实验显示,相比已有的l-多样化模型实现算法L-Incognito,通过L-BottomUp算法得到的l-多样化数据表用于分类时具有更好的分类精度,因此L-BottomUp算法在使数据达到隐私保护要求的同时,也较好的保证了其用于分类时的有效性。