基于差分隐私保护的K-means聚类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wanghongtao11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是通过机器学习、模式识别和数理统计等方法获取有用信息的一种重要技术手段,可以广泛应用于社交网络、医疗和市场分析等领域。随着数据挖掘应用的不断深入,隐私泄露风险日益成为数据挖掘中一个敏感而突出的问题。K-means聚类算法是数据挖掘领域中应用广泛的算法之一,差分隐私保护理论由于其具有严格的数学模型且不受背景知识约束等特点成为数据挖掘隐私保护技术的重要分支。差分隐私保护是一种基于数据扰动的隐私保护方法,基于差分隐私保护的K-means聚类分析技术能够有效的减少隐私泄露,但却容易发生数据失真,使得满足差分隐私保护的数据集可用性有所下降。因此,如何实现在较高隐私性前提下的较好数据可用性就成为研究的重点和难点。本文针对差分隐私保护的K-means聚类算法的可用性以及算法运行效率问题展开研究工作,通过深入分析导致K-means聚类算法加入差分隐私保护可用性降低的原因,提出一种改进的基于差分隐私保护的K-means聚类算法,可以实现在保证数据隐私性的条件下提高聚类结果可用性,并对算法进行优化提高了运行效率。1)针对拉普拉斯噪声的随机性导致中心点偏离较大,尤其是隐私预算参数ε较小时聚类结果可用性较差的问题,提出了一种基于轮廓系数的差分隐私保护K-means聚类算法—SCDP K-means(silhouette coefficient based differential private K-means)聚类算法,算法采用轮廓系数定量评估每一次迭代的聚类效果,对不同的簇添加不同的噪声。针对计算轮廓系数的复杂度较高所导致运行效率较低的问题,采用基于中心点的计算轮廓系数的方式,保证当数据量增大时算法运行时间平稳增长。2)针对隐私保护的聚类算法在处理大规模数据时,内存资源消耗大所造成的运行效率低的问题,完成了 SCDPK-means聚类算法的并行设计和实现。实验结果表明,并行化的SCDPK-means聚类算法在保持较高隐私保护程度的同时具有较好的数据可用性,且在大规模数据集中仍然具有较好的运行效率,有效解决了由于引入轮廓系数而导致计算耗时长的问题。
其他文献
近年来,全景视觉因为具有360°视角的特点,所以在交通管制、视频监控和无人驾驶等领域都拥有巨大的发展前景,但由于全景图像存在非线性几何畸变,并且目标运动过程中存在着背景相近、遮挡、旋转等因素,导致传统的粒子滤波算法无法正常适用于全景相机,因此本文对在全景视觉如何有效的进行目标跟踪进行研究。针对全景图像中由于目标畸变导致跟踪失败问题,提出了一种通过将全景图像坐标映射到单位球面坐标系的方法解决该问题。
随着科学技术的进步,机械切削加工表面的微观形貌对加工产品的性能和质量产生了重要的影响,学者们研究切削加工表面的视角开始从宏观向微观转变。因此如何快速精确地测量切削加工表面的微观形貌成为近年来表面学领域研究的热点。本文以切削加工粗糙度量块的表面为研究对象,实际拍摄获得表面显微图像及三维形貌数据,研究现有的光照模型并提出改进模型;通过小波多尺度分解获得表面显微图像和形貌数据的低频与高频信号,分别分析低
随着电子设备复杂度愈来愈高,对它的可靠性要求也愈来愈高,于是就需要对电子设备故障适应性进行分析、解决它存在的一些故障问题,来提高它的可靠性;而1394总线故障注入系统能够营造故障测试环境,真实的模拟故障错误,检测电子设备在性能与功能设计方面的缺陷,进而来解决其中的故障问题。因此1394总线故障注入系统为电子设备提供了一种强有力的验证工具,对提高电子设备的可靠性与稳定性尤为重要。本文首先提出了 13
在当下的信息化社会中,保护自己的信息、隐私和财产安全对每个人来说都是十分重要的,但频频出现的各种信产被盗事件又让人们苦于找不到一个有效的方法来保护自己的信息财产安全。生物识别这一身份认证方式,逐渐替代着传统的认证方法,成为人们保卫信息安全的首要选择。其中,掌脉是人体所拥有的一种独特且稳定的生物特征,其隐藏于皮下,结构复杂,与其他生物特征相比更具安全性。作为生物识别领域的前沿课题,掌脉识别技术因其优
电气设备的大面积推广与使用,凸显了电气资源供应的重要性。在电力产业发展期间,供电单位经营体系逐渐壮大。电能产品具有资源特殊性、供电专业性、电损控制技术性等特点,分别从发电、供电、耗电等视角,构建电力服务体系。因此,在电力行业有序发展的过程中,需有效落实电能计量管理,以确保电能管理效果,增强人们的用电体验。
期刊
近年来,随着外包数据业务的发展,数据安全变成了一个急需解决的问题。基于属性的加密是云存储中数据安全的一种有效的解决方案,能够实现数据的细粒度访问控制。关键词可搜索的基于属性的加密能够保证数据拥有者授予用户搜索能力,但是大多数方案不能保证访问结构的隐私性。在实际中,单权威的加密方案存在安全性不高等缺点。本文主要研究了云存储环境下关键词可搜索且属性可撤销的基于属性的加密方法,主要研究成果如下:提出了一
在监控领域,随着计算机硬件方面的不断改善,目标跟踪的应用越来越广泛。但由于单视觉传感器在目标信息的提取方面的不足,在场景比较混乱,或者长时遮挡等情况下容易发生目标丢失。多视觉协同目标跟踪可以有效解决这些问题,尤其对于目标的长时遮挡。因此,本文提出了一种基于概率模型的多视觉协同目标跟踪的方法,通过多次实验,在目标的长时遮挡方面取得了较好的效果。本文的内容主要包含以下三个部分:针对单视觉中目标特征提取
随着时代的不断前行,拍摄工具硬件的日新月异,拍摄的图像越来越清晰,人们对于图像的质量的要求也是越来越高。逆光图像的产生是因为拍摄环境导致被拍摄主体区域的亮度较暗,颜色和细节信息严重丢失;而背景区域的亮度较大,颜色呈过度饱和,极大地降低了图像质量不能达到人们的要求。因此,逆光图像增强算法的研究是具有重要意义的。目前针对逆光图像增强的算法鲜有研究。逆光图像与光照不均匀图像相似,利用光照不均匀图像增强算
随着我国城市基础设施建设的快速发展,地下综合管廊建设规模不断扩大,对其施工建设信息化、智能化水平提出了更高的要求。面向具体施工需求的BIM技术应用研究,为解决地下综合管廊施工建设中存在的问题提供了可行的方法,本文针对地下综合管廊施工阶段的不同需求,设计地下综合管廊BIM应用实施方案,研发地下综合管廊施工快速计量工具,并结合倾斜摄影技术辅助地下管网迁改,主要研究内容如下:(1)分析BIM技术在地下综
随着云计算的发展,数据外包到云服务器引起了广泛关注。为了保证数据的存储安全性和实现细粒度的数据访问控制,基于属性加密方案成为解决云存储安全问题的研究热点之一。可撤销的基于属性加密是属性加密的延伸与扩展,对于解决实际应用中用户属性变更,具有重要的研究价值和现实意义。关键词可搜索加密方案能够使用户快速查找出存储在云服务器中自己感兴趣的数据,而且不会泄露搜索关键词的信息,从而保证用户搜索的高效性和安全性