论文部分内容阅读
随着互联网和存储技术的快速发展,网络用户数和计算机应用规模迅速扩大,数据存储量呈现爆炸式的增长。在海量数据面前,要求能够快速的进行管理和计算,并能从这些数据中找到一些重要的信息,或者是满足某种需要的信息,从而出现如数据挖掘、数据分析等涉及海量数据计算的研究领域。但随着数据挖掘和数据分析方法的发展,人们希望找到基于更大的数据集上的知识,产生了分布式环境下进行联合挖掘的需求,从而开始致力于分布式环境中的算法研究。此时对隐私问题的关注度不断提升,众多研究者也开始致力于隐私保护的研究。由于数据通常记载了各参与者的隐私信息,如何在联合挖掘的过程中不泄露参与者数据的隐私,就是一个现实需要解决的问题。因此,基于上述分析,确定了本文的研究内容,即分布式环境中保护隐私的数据挖掘算法,即既要完成联合挖掘,又要在挖掘过程中不泄漏任何参与方的秘密输入信息和其它一些关于总体的重要信息。 本文针对水平分布式的数据库,采用安全分拆求和协议、添加随机数的方法和安全比较协议,主要得到了两个保护隐私的数据水平分布的关联规则挖掘算法。通过这些基本协议的应用,很好的解决了数据挖掘过程中的隐私保护问题。各种性能分析表明,在半诚实环境下,上述算法能够很好完成挖掘任务,并且很好的隐藏数据信息,保护私有信息,拥有相当高的效率。