论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,它正受到人们越来越多的关注。与此同时,在数据挖掘过程中,难免会造成一些私密信息的泄露。随着个人对隐私的保护意识的增强,隐私保护问题也越来越受到人们的重视。所以,如何在数据挖掘过程中解决好隐私保护的问题,目前已经成为数据挖掘界的一个研究热点。本文的主要工作是给出了两种隐私保护数据挖掘算法:随机响应结合决策树(Randomized Response Decision Tree,RRDT)算法和基于短簇的分布式聚类(distributed clustering algorithm based on short clusters)算法。在文章的第一章和第二章,我们主要介绍了研究背景与现状以及一些很基础性的知识和算法的介绍。在文章的第三章,我们采用RRDT算法对原始数据进行扰乱,然后针对经过RRDT算法处理后的数据进行隐私保护的关联规则挖掘。经过理论分析和实验表明,基于RRDT算法的隐私保护关联规则挖掘方法很好的保护了数据的隐私,并拥有良好的性能。在文章的第四章,我们主要针对多方安全计算问题展开了研究,目的在于使参与方在保护自身敏感数据的同时,能很好的进行彼此协作,在整合的数据库中挖掘出期望的结果。通过将短簇概念引入到分布式多方安全协议环境中,我们给出了基于短簇的分布式聚类算法,以达到隐私保护的目的。通过理论分析和与集中式的K-means算法在实验上做比较,证明了该算法具有良好的准确性和安全性。