论文部分内容阅读
随着科学技术的迅猛发展,人们进入到一个信息量激增的时代,海量数据的多样性与复杂性向数据挖掘技术提出更高的需求。在实际应用时,由于数据量大且繁杂,很难存在存储能力和计算能力都符合的用户,因此,数据集会经常分布于多方用户之间,这就需要多方用户联合数据资料,共同挖掘得出期望知识。然而,基于隐私保护的考虑,人们惧怕对数据挖掘技术的误用、滥用会导致私有数据特别是敏感信息的泄漏。因此,在这种场景下,人们甚至会拒绝提供真实的个人数据信息。这就制约了数据挖掘技术的发展,而基于隐私保护的数据挖掘技术(Privacy-Preserving Data Mining,PPDM)的出现可以解决这一问题。作为数据挖掘技术的一种,聚类算法应用广泛。但是基于隐私保护的安全聚类协议并不多,并且多是集中于对经典K-均值(K-means)聚类算法的安全协议研究。由于亲和传播(Affinity Propagation, AP)聚类算法具有K-means无法比拟的优势,但目前却没有可用的协议涉及其安全应用方面,因此,本文将提出一种解决方案,并以此为重点展开讨论。本文主要内容如下:(1)分析了数据挖掘技术的研究背景以及国内外发展现状,详细介绍数据挖掘的相关知识与主要技术,其中重点研究不同类型的聚类分析算法,并对影响聚类结果的主要因素展开讨论。(2)介绍PPDM的相关技术理论,研究数据处于不同分布环境下的隐私保护技术,并重点探讨了分布式环境下的安全多方计算协议。结合隐私保护技术与挖掘算法即可形成特定的隐私保护方案,本文讨论了隐私保护技术在PPDM方案中的实施过程,并给出评价隐私保护方案的重要标准,最后分析了PPDM在未来所要面临的问题与挑战。(3)本文介绍一种新型高效的聚类算法—AP聚类,基于对AP聚类算法的研究及其特性分析,提出一种在数据垂直分布环境下的AP安全聚类协议。在半诚实模型下对其进行安全性讨论,并估算给出通信代价,以证明该协议不仅能实现高效的聚类挖掘,并且保证各站点的隐私数据得到安全保护,即实现了数据挖掘的要求,又达到了隐私保护目的,从而做到了双赢。