基于拉普拉斯机制的差分隐私保护K-means++聚类算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:pcy1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联信息技术的快速发展和应用,越来越多的互联网产品包括在线购物、交友、医疗、娱乐视频,大到在线网站平台,小到手机APP应用,这些每天都已经根深于我们的生活当中,而这些几乎全部立足于人们各个方面的数据信息之上,并且这些应用或互联网产品也依赖人们的信息而存活,这些应用或被用于数据挖掘分析,但是在数据分析和挖掘的过程中如果使用不当,可能造成用户隐私泄露,从而会对用户的信息安全构成威胁,因此,在数据挖掘过程中如何做到隐私保护是数据挖掘领域的一个热点。传统的通用隐私保护模型如k-匿名等是基于分组实现的,而它们的弊端在于假使攻击者了解到足够的背景知识,这些攻击者就可以通过分析得到用户的真实隐私数据。因此Dwork等在2006年首先提出一种严格的可证明的隐私保护模型,它定义了一个极为严格的攻击模型,即使攻击者已经知道了除目标数据外的其他所有数据,差分隐私机制依然能够达到很好的保护效果,确保目标数据不会被泄露。除此之外,差分隐私所添加的噪声多少与数据集的大小无关,这对于大规模数据挖掘和分析非常有利。传统的基于差分隐私K-means聚类算法的准确度受K-means算法自身初始中心点选取的影响较大,便有了优化选取初始中心点的K-means++聚类算法,本文提出了基于差分隐私的DPK-means++聚类算法,解决随机选取初始化中心点隐私泄露的问题。基于差分隐私的DPK-means++聚类算法在隐私预算参数范围内并且保证聚类准确性的前提下能够有效的对数据隐私提供不同级别的保护。谱聚类是一种基于图论的聚类技术,本文结合DPK-means++聚类算法,将其应用在谱聚类算法中,提出了一种基于DPK-means++的谱聚类算法,相比谱聚类算法,对非凸数据聚类过程中提供了隐私保护和较好的准确性,并在两者之间取得了较好的平衡。
其他文献
从O2O到全渠道的演进,说明我国零售业也正在从单一的线上与线下的“上下融合”向各行各业的”跨界融合”方向发展。我们已经从零售1.0的地面连锁时代,零售2.0的PC互联网电商时代,
青少年网络犯罪原因包括虚拟空间中道德和法律观念的异化与失衡,网络立法具有滞后性和不完善性,不规范的网络环境导致青少年社会化不足,网络亚文化诱发青少年网络心理障碍和青少
指出了现代化理论对城市规划的影响和意义;辨析了现代性、现代化的实质和内涵及其对城市规划的启示,明确了城市规划在实现现代化过程中的功能和作用;分析了我国现代化进程中
在武器装备体系需求分析的研究中,科学合理的装备体系需求是推动装备体系发展的根本依据。着眼于科学分析并提出装备体系需求方案,根据类比分析方法,提出了一种定性与定量相
在求常微分方程初值问题的数值解时,本文在欧拉方法计算结果上再补充一个拉格朗日余项的近似值,以期达到提高精确度的效果,并由此而构造了一个新的计算格式.
文博作为文化的重要组成部分,其本身虽然不是产业,但文博的深刻内涵和广泛外延完全可以产业化。博物馆应全面领会党的十七大报告精神,深入贯彻科学发展观,积极开发和挖掘文化
高校贵重仪器共享服务和示范应用对提高仪器使用效率与服务社会科技创新具有重大意义。为了保障高校贵重仪器设备的充分利用和共享服务,针对当前高校贵重仪器管理和共享服务
目的探讨实施个性化护理干预措施对改善社区食管癌患者生存质量的效果,为提高社区食管癌患者健康状况提供理论依据。方法将120例社区食管癌患者随机分为对照组和试验组,各60
自《国务院关于国家重大科研基础设施和大型科研仪器向社会开放的意见》发布以来,大型设施设备开放共享成为共识与基本需求。文章以中国农业科学院为例,概述了其设施设备开放共
全国首届学导式教学理论研讨会(1988—8,太阳岛)收到了80多篇论文材料(手稿)。在分组讨论中,结合开发人才智能的学导式教学理论的兴起与发展,以及各地各级各类各科进行学导式