论文部分内容阅读
随着互联信息技术的快速发展和应用,越来越多的互联网产品包括在线购物、交友、医疗、娱乐视频,大到在线网站平台,小到手机APP应用,这些每天都已经根深于我们的生活当中,而这些几乎全部立足于人们各个方面的数据信息之上,并且这些应用或互联网产品也依赖人们的信息而存活,这些应用或被用于数据挖掘分析,但是在数据分析和挖掘的过程中如果使用不当,可能造成用户隐私泄露,从而会对用户的信息安全构成威胁,因此,在数据挖掘过程中如何做到隐私保护是数据挖掘领域的一个热点。传统的通用隐私保护模型如k-匿名等是基于分组实现的,而它们的弊端在于假使攻击者了解到足够的背景知识,这些攻击者就可以通过分析得到用户的真实隐私数据。因此Dwork等在2006年首先提出一种严格的可证明的隐私保护模型,它定义了一个极为严格的攻击模型,即使攻击者已经知道了除目标数据外的其他所有数据,差分隐私机制依然能够达到很好的保护效果,确保目标数据不会被泄露。除此之外,差分隐私所添加的噪声多少与数据集的大小无关,这对于大规模数据挖掘和分析非常有利。传统的基于差分隐私K-means聚类算法的准确度受K-means算法自身初始中心点选取的影响较大,便有了优化选取初始中心点的K-means++聚类算法,本文提出了基于差分隐私的DPK-means++聚类算法,解决随机选取初始化中心点隐私泄露的问题。基于差分隐私的DPK-means++聚类算法在隐私预算参数范围内并且保证聚类准确性的前提下能够有效的对数据隐私提供不同级别的保护。谱聚类是一种基于图论的聚类技术,本文结合DPK-means++聚类算法,将其应用在谱聚类算法中,提出了一种基于DPK-means++的谱聚类算法,相比谱聚类算法,对非凸数据聚类过程中提供了隐私保护和较好的准确性,并在两者之间取得了较好的平衡。