基于差分隐私的K-means聚类分析

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:mldn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘能够发现隐藏在海量数据背后的潜在模式以及规则,有利于我们更好的作出决策,被广泛应用于商业、科学研究以及医学研究等领域,但是如果对数据挖掘利用不当,可能会对隐私和信息安全构成威胁,因此如何将隐私保护技术与数据挖掘结合,实现保证隐私安全前提下的数据挖掘成为数据挖掘领域的研究热点之一早期的隐私保护模型如K-匿名及其扩展模型,通常需要假设可能的攻击模型,旦出现新型攻击,必须不断改进自身模型,而且无法对隐私保护水平进行量化分析,因此Dwork提出了的差分隐私隐私保护模型。差分隐私保护模型定义了一种更为严格的最大背景知识作为它的攻击模型,以坚实的数学理论为支撑,能够通过参数ε量化隐私保护水平,弥补了传统隐私保护的不足,且其添加的噪声量大小与数据集无关,因此非常适合海量数据挖掘中的隐私保护。传统差分隐私保护K-means算法,对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。因此,本文在差分隐私保护K-means中引入Canopy算法,提出了融合Canopy的差分隐私保护K-Means算法,即DP Canopy K-means算法。DP Canopy K-means算法能有效避免k值盲目性和初始点敏感性,并且能减少其迭代次数,提高聚类结果的可用性,能够应用于数据挖掘中对原始数据隐私保护和聚类结果可用性有要求的场景中。PINQ是最早为敏感数据查询提供差分隐私保护的原型系统,本文基于PINQ平台实现了DP Canopy K-means算法和IDP K-means算法,并且比较这两种算法在Magic和Blood数据集上运行的聚类结果可用性。实验结果表明,在同样的隐私保护水平下,DP Canopy K-means算法的聚类结果在准确性上优于IDP K-means算法,在收敛速度上DP Canopy K-means算法高于传统DP K-means算法。为了验证算法在实际应用中的有效性,论文以组推荐系统为应用场景,分析了组推荐系统中的隐私泄露问题,通过在组推荐算法中引入了DP Canopy K-means算法保证用户隐私安全。实验结果证明,在组推荐中应用DP Canopy K-means算法不会对推荐准确度产生大幅度的影响,在一定隐私预算值下,误差不超过3%,能够获得推荐系统中隐私保护与推荐结果的平衡。
其他文献
随着计算机网络技术与多媒体技术的迅速发展,越来越多的多媒体产品通过网络的形式发布,使信息的发布和传输变得方便快捷。但数字产品具有极易被非法复制和篡改的特性,任何人
运动目标跟踪和视觉测距是计算机视觉研究的重要课题,在军事视觉制导、机器人视觉导航、医疗诊断和智能交通监视等领域有重要的价值和前景。由于运动目标本身和所处环境的多样
认知无线电作为一种新兴的技术,研究的历史很短,不超过10年时间,但其在解决无线电应用需求与频谱资源稀缺的矛盾上潜力巨大,吸引越来越多的网络研究人员的关注。目前无线网络
在一个执行站内换乘的城市轨交网中,各线路晚间末班车的运营时间没有承接性,经常发生乘客购票后无法经换乘抵达目的站的尴尬情况。随着城市轨交网的规模越来越大,换乘路径的
随着无线通信技术的演进和终端芯片集成度的发展,终端装备有多个网络接口已经成为一种趋势,异构网络环境下的多连接技术成为了新的研究热点。多连接技术的研究目标是通过多个
随着互联网技术的发展,网络英语教学系统应运而生并快速发展起来。现在网络上流行的在线学习系统各式各样,其基本的功能大体一致,主要实现大量信息的共享和师生的在线交流。
随着信息技术的发展,大规模数据共享与协同工作环境已经成为主流应用普遍采用的工作模式。同时,以网格计算为基础的科学活动环境已经成为当前国际计算机技术研究的热点和前沿领
随着计算机和通信技术的快速发展,嵌入式系统已经广泛的应用到科学研究、工业控制、军事技术以及人们的日常生活等各个方面。因此,随着嵌入式系统应用领域不断扩大,在应用中
人脸作为人类内心世界的直接体现,具有相当重要地位。三维模型作为人脸在计算机中的表示,因此受到了很多研究机构的重视,被应用到了很多专业及非专业的领域。所以如何建立一
随着科学技术的迅猛发展,全球每年新产生的数据正以指数规模增长。惊人的数据信息增长趋势导致以网络为中心的存储结构和存储技术得到快速发展。而以网络为中心的存储技术快速