基于差分隐私保护的数据聚类相关研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:pikaqiuqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘中重要的算法,在多个应用领域中扮演着重要的角色。特别在服务质量(Quality of Service,QoS)预测框架中,服务聚类次数常用于衡量用户间的相似性;而在分类数据可视化中,聚类用于寻找数据集中合适的聚合点。随着互联网技术的迅速发展,带有敏感信息的数据迅速增长,这给广大用户的个人隐私带来很大的风险。围绕着聚类算法相关应用的隐私保护问题,已经引起学术界的广泛关注。差分隐私保护是近些年兴起的隐私保护方法,通过加入少量噪声,保障个体信息的隐私性,同时尽可能保证了数据的可用性。在服务质量预测中添加噪声扰动服务聚类次数,适当干扰相似用户的选择,避免用户个体的偏好的直接泄露。在分类数据可视化过程中,利用差分隐私机制添加噪声扰动聚类的迭代中心点,达到分类数据的隐私保护。为此,本文主要结合聚类算法,将差分隐私保护方法应用到服务质量预测和分类数据可视化过程中,并且通过隐私性分析和大量实验表明,新提出的方案在保护数据隐私的同时,能够有效地保证预测精确度,以及获得安全视图。主要的研究工作和贡献包括以下两个方面:(1)提出了一种基于差分隐私保护的服务质量预测算法,该算法的主要研究工具包含,指数机制和改进的覆盖聚类。首先通过改进的覆盖算法,计算服务聚类次数并归一化作为用户间的相似度;然后以此定义效用函数,接下来设计出两种指数机制,为目标用户挑选相似用户,一种是根据单个用户的效用进行选取,一种是多个用户进行组合,根据多个用户的总效用进行选取;最后,基于相似用户对目标用户的缺省服务质量值进行预测。本文不仅证明了该算法满足ε-差分隐私保护,而且在真实数据集WS-Dream上开展实验,结果显示,与现有的以皮尔逊相关系数作为效用函数相比,本文的方案在保护数据隐私的同时,明显提高了预测的精确度。(2)提出了一种满足差分隐私保护的分类数据可视化算法,该算法的主要研究工具包含,拉普拉斯机制和k-modes聚类算法。首先,提出改进的隐私保护k-modes 算法(Improve Differential Privacy k-modes,IDP k-modes),将数据集均分成k个子集,并统计出每个子集的属性众数作为中心点,取代了传统k-modes算法中随机选取A个中心点。通过实验分析,IDP k-modes相比于现有的DP k-modes,提高了分类数据聚类的精确度和稳定性;然后,为了解决由于分类数据密集所造成的可视化图像叠加严重,以及可视化过程中隐私泄露的问题,本文在IDP k-modes算法的基础上,考虑均分的方法,提出差分隐私保护均分数据聚合算法k-modes(Differential Privacy Equipartition k-modes,DPE k-modes)。在每次迭代的过程中,保持A个簇中的数据点个数一致;最后,将&个簇中的中心点作为聚合点,进行平行坐标法得到可视化图像。本文通过隐私性分析证明DPE k-modes满足ε-差分隐私,并且在真实分类数据集Breast Cancer上开展实验,验证了DPE k-modes能够支持较大的k值且保持较好的聚合质量,同时输出的安全图像保持较高的可用性,较好地保留原图像的分布、关联等特性。
其他文献
水凝胶是一种高含水量的三维网状高分子材料,它的机械性能对于其在生物组织工程等领域用作结构材料具有重要的影响。双网络(DN)水凝胶是一种机械性能优异、生物相容性好的新
<正>许耀桐在《人民论坛》2007年第8期撰文指出,中国民主发展模式具有五大特色:1、战略思想:马克思主义民主理论。中国民主政治发展的指导思想是,从中国基本的国情出发,坚持
随着信息技术的快速发展和科研事业单位改革的不断深化,科研事业单位在财务管理方面也逐渐认识到了信息化建设的重要性。但就目前情况看,我国大部分科研事业单位的财务信息化
江泽民同志在全国统战工作会议上指出:中国共产党领导的多党合作和政治协商制度是我国的一项基本政治制度.我们必须充分认识这项基本政治制度的优越性,把它坚持好、完善好、
文化是民族生存和延续的灵魂,也是民族屹立于世界精神舞台的瑰宝。它不仅推动着人类社会的完善与充实,而且引导着人类社会的前进方向。中华历史绵延数千年,文化遗产数不胜数
详细介绍了不溶性阳极(DSA)的起源、发展和在电镀行业上的应用。
国际投资是目前国际经济交往最主要也最为重要的活动形式。在世界范围内,国际投资在过去三十年中迅速增加,跨国直接投资的增长特别值得关注。中国是目前世界第二大经济体,中
通过对疾病标志物的检测,能够为疾病的诊断和治疗、监测疗效及预后等方向提供重要的检测与观察数据。因而开发一些操作简单、检测快速、灵敏度高、选择性好的可用于疾病临床
目的:探讨书法与绘画练习对老年大学学生心理健康的作用。方法:选取一所县级老年大学学生60名作研究组,另选取非老年大学离退休老干部40人作对照组。老年大学学生主要是系统
传统的道德理论灌输可以指导学生做出道德判断,却难以引起学生的情感反应来自觉规范自己的道德行为和养成良好的道德品质。道德情感的培养是提高高校德育时效性的关键。运用