论文部分内容阅读
随着计算机技术的快速增长,以数字形式提供的关于个体信息的数量激增。信息的方便获取对多数人来说,生活变得更加便捷了。例如,社会网络使得我们随时与朋友取得联系,搜索引擎使我们动几下鼠标就可以获取信息财富。然而,大多数有价值的数据都是私有的,人们在享受信息带来的便利的同时也承受着数字信息带给个体的相当大的风险——隐私泄露。各种数据使用的渴望和保护数据的安全和隐私之间存在着一个长期的紧张关系,这就引发了数据共享过程中的隐私保护研究。其主要目标是设计相关的应用模型或者工具,使共享数据在敌对环境下仍然能够有效保护个体的隐私信息,并且数据的效用没有太大损失,从而达到隐私保护与数据可用性之间的平衡。最大化数据的收集与使用,同时阻止敏感和机密信息的泄露是统计科学和计算机科学长期以来的研究主题。本文围绕数据共享中的隐私保护问题进行研究,开发解决该问题的算法,主要在以下几个方面开展研究工作:首先,针对k-匿名模型在一定程度上有效地阻止了链接攻击,但是不能阻止同质攻击和背景知识攻击的缺陷。另外,由于大多数隐私保护数据发布模型采用概化和抑制技术,导致过多的信息损失。因此,本文提出一种增强-p型敏感k-匿名的算法。具体过程为:首先,用近邻法对数据进行划分,生成簇。其次,发布满足p-敏感k-匿名要求的每个簇。文中对算法的正确性和复杂性进行了详细分析,用信息损失和执行时间来检验算法的效果,并对实验结果进行了分析。初步的仿真实验结果表明:基于最近邻搜索的p-敏感k-匿名的增强型隐私保护算法不仅能产生更小的信息损失和合理的时间代价,同时匿名化数据也具有良好的实用性。其次,传统l-多样性匿名实现方法或者效率较低,或者信息损失较大,针对这种不足,提出一种改进的基于聚类的l-多样性算法。该算法首先计算准标识符集合中各属性的方差,其次根据方差确定不同属性在数据相似性计算中的权重,再次根据数据之间的相似性进行约束聚类,最后对同一簇数据进行数据概化,满足l-多样性要求,并从理论上对算法的正确性和复杂性进行了分析。仿真实验结果表明:改进的基于聚类的l-多样性算法可以在实现隐私保护的同时具有更小的数据信息损失和较快的运行效率。再次,针对大规模数据集上的模式分类任务,提出一种基于核密度估计的模式分类隐私保护算法(CPPPW)。该算法首先利用Parzen窗算法对原始大规模训练集服从的概率密度进行估计,然后根据估计的概率密度函数构造la个替换训练样本,其中l为原始样本的数目,a通过10折交叉验证方式确定。充足的训练样本使得核密度估计算法可以较准确的估计密度函数,保障了替换数据集的质量。对CPPPW算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPW算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:三种经典的分类算法在替换数据集上取得了相当的分类精度;同时在替换数据集上进行分类学习,有效的避免了原始数据上的隐私泄露;与ASN算法相比,CPPPW算法不仅具有隐私保护性能,而且分类准确率和召回率均较高,具有更好的模式分类精度。最后,模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的稀疏数据模式分类隐私保护算法(CPPPCA)。该算法利用PCA提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。对CPPPCA算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPCA算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:由于PCA在一定程度上可实现去噪,从而使三种经典的分类算法在替换数据集上取得了更好的分类精度;同时在替换数据集上进行分类学习,有效地避免了原始数据上的隐私泄露;与ASN算法和WT算法相比,CPPPCA算法不仅具有隐私保护性能,而且分类的准确率和召回率均较高,具有更好的模式分类精度。