论文部分内容阅读
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方参与下的数据挖掘,即分布式条件下的数据挖掘。传统的数据挖掘是直接作用在数据集之上,因此在分布式环境下如何保护各方的隐私信息同时进行数据挖掘已经成为科研和商业等领域关注的焦点。数据的分布方式包括水平分布和垂直分布两种情况,其中数据水平分布应用场景广泛。数据的水平分布指的是数据按照条目分布在各不同的服务器上,不同服务器上的数据具有相同的属性类别,具体的属性值可能不同。本文针对数据水平分布情况下的隐私保护数据挖掘问题,具体包括聚类挖掘、分类挖掘以及关联挖掘,均设计了相关算法来保护挖掘过程中可能存在的隐私泄露问题并对上述的算法进行了实验验证。具体研究工作如下:(1)针对聚类挖掘下的隐私信息保护问题,设计一种数据水平分布条件下的隐私保护聚类挖掘解决方案。首先,利用SMC(安全多方计算)技术初始化全局聚类中心,然后各站点依次把本地数据按照全局的聚类中心分配相应的簇,在每一轮迭代结束时,重新利用SMC技术来确定新的聚类中心,最后经过多轮迭代之后,直至聚类中心不再发生明显的变化。由于在计算全局聚类中心的过程中并不会涉及到各站点具体的数据值,因此该方案在得到正确的聚类结果同时,较好的保护用户的隐私。(2)针对分类挖掘下的隐私信息保护问题,设计一种数据水平分布下的隐私保护分类挖掘算法。本算法使用了BP神经网络进行分类分析。首先,通过各站点初始化网络权值,即随机选择各个站点给出的权值初始值;其次,对各站点输入的样本数据进行分类计算。每一轮的计算会产生权值的增量,利用同态加密技术计算各站点的权值增量和,从而保证各站点数据的独立性,隐私不会被泄露,在同态加密中使用了Paillier密码系统;最后经过多轮的迭代,直至误差精度满足要求为止。由于同态加密体制的引入,该算法在计算出正确的分类结果同时,较好的保护了各站点的隐私。(3)针对关联挖掘下的隐私保护问题,设计了一种数据水平分布下的隐私保护关联挖掘算法。本算法使用基于划分的改进Apriori算法来找出候选项集,由第三方的站点利用同态加密来计算候选项集的计数和。经解密后,由候选项集得出频繁k项集。根据条件决定是否循环上述过程,利用各个站点找出候选k+1项集。支持计数作为各个站点的关键信息,在计算的过程中被很好的保护,因此保护了各个站点隐私。