面向差分隐私保护的聚类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhihong0223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展,使得电子商务、即时通讯、在线服务等互联网经济活动产生了海量数据,众多企业等组织机构为了能够更好地分析这些数据中潜藏的关键价值信息,并将分析结果应用于商业战略、决策分析等,数据挖掘应运而生。人们在享受数据挖掘带来便捷服务的同时,大量敏感信息的披露给用户带来众多威胁和损失,数据隐私泄露问题愈发严重。因此,在数据挖掘过程中如何保护数据隐私成为数据挖掘和隐私保护领域的热点问题。差分隐私凭借其严格的数学定义和可证明性成为近年来备受关注并被广泛研究的一种新型隐私保护技术。现有的差分隐私数据挖掘工作大多集中于关联规则和分类算法上,而面向差分隐私保护的聚类算法研究相对较少。本文的研究内容着重于面向差分隐私保护的聚类问题,主要有三个方面:针对以往的差分隐私k-means聚类算法对初始中心点的选择上较为敏感,降低了数据的可用性等问题,研究并提出一种新的优化的差分隐私DPk-means-up聚类算法。该算法通过选取合适的初始中心点来减少迭代次数,提高聚类结果的可用性。进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,所提出的算法与其它的差分隐私k-means聚类方法相比,有效提高了聚类结果的可用性和算法性能。针对以往的差分隐私谱聚类算法中规模参数的选择会对结果产生较大影响以及聚簇的个数需要事先指定等问题,研究并提出一种新的优化的差分隐私自适应谱聚类算法。该算法可以通过选取使特征间隔最大的k值作为最合适的聚簇个数;也可以自动地计算规模参数,更好的反映样本间的亲密关系;此外使用前面提出的DPk-means-up算法代替传统谱聚类中用到的k-means算法,提高差分隐私谱聚类结果的可用性和准确性。理论分析和实验结果表明,所提出的优化算法相比传统的差分隐私谱聚类算法,较大程度上提高了聚类结果的准确性和可用性。为了验证DPk-means-up算法在实际应用中的有效性,本文选取组推荐系统作为应用场景,通过在组推荐算法中引入DPk-means-up算法来保证组推荐过程中用户隐私不被泄露。实验结果可以看出,在组推荐中应用DPk-means-up算法能够更好地平衡隐私保护水平和推荐结果准确性。
其他文献
采用ID-HVAF和HVAF工艺制备了WC-10Co-4Cr涂层,同时对涂层结构、硬度及耐磨性等性能进行了对比研究.研究结果表明,ID-HVAF工艺喷涂的WC-10Co-4Cr涂层组织致密均匀,涂层硬度(HV
以6个杜鹃品种为试验材料,研究聚乙二醇6000(PEG-6000)模拟不同程度干旱胁迫对杜鹃叶片形态、生理指标和叶绿素荧光动力学参数的影响,应用隶属函数法评价6个杜鹃品种的抗旱性
职业教育在教育乃至经济建设的全局之中是重点。面对21世纪的挑战,农村中等职业教育由于布局、层次和专业结构不合理,导致其不能适应农村社会经济发展的需要,必须对当前存在问题
目的 观察定期牙周洁治对青少年正畸患者牙周健康状况的影响。方法 选择全身及牙周健康因错[牙合]畸形需固定矫治的患者40例(男20例,女20例)。随机分为对照组和实验组。实验组进
视觉效应就是向受众者展现生动、形象且直观的一种生活图画,从而使受众者产生一种审美想象,包装设计能够根据消费者的消费心理、产品的特点等多种因素,直接增强消费者的购买
目的:对比分析开颅手术与神经内镜治疗高血压脑出血的疗效。方法:收集2016年6月-2018年12月期间我院收治的高血压脑出血患者92例为研究对象,根据随机的原则将其均分为两组,开
马克思主义法哲学语境下的多维视角是探究我国法制和法学发展战略的一个极其重要的突破点,透过多维视角对法哲学理论的梳理与探索,有助于寻找一种正义的范式来解决目前中国法
通过研读近几年微生物检测的临床资料,分析出近几年微生物快速检测技术的研究发展。计算机技术、免疫学、分子生物学、生物化学等都应用于临床微生物快速检验技术,促进了临床
武术经过时代的不断变迁,其价值和功能也在随之改变,在21世纪这个新时代,人们重视的价值分别为:文化价值、教育价值、欣赏价值、养生价值。而武术的本质价值--技击价值渐渐被
依据建构主义等现代教育教学理论,针对我国大众化教育背景下英语专业英语教学普遍存在的目的语文化知识导入量少、文化知识传授常流于“文化定型”等问题实施导向行动研究,可帮