基于差分隐私保护的聚类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:franky_816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据在各行各业中有着重要应用,在数据为王的时代,掌握了数据就是掌握了制胜的砝码,业界和学术界都越来越重视数据的作用。平时看似不起眼的数据信息,在经过数据挖掘、分析后,会发现其中重要的、有价值的规律,为下一步的经营、管理等起到预测指导作用。然而在挖掘这些数据的潜在关联的同时,不可避免地会涉及到个人资料,如何确保数据的隐私性和防止个人信息外泄是目前面临的重要问题。怎样在信息挖掘过程中对用户的资料进行保护成为当下隐私保护的一个重要研究方向。在众多隐私保护方法中,差分隐私因为其坚实的数学基础、隐私性水平可度量的优势,与数据挖掘的结合可以有效地确保数据不会因挖掘而泄露隐私。针对基于差分隐私保护的数据挖掘算法,本文作了如下工作:(1)提出了 R邻域距离离群消除算法。算法通过计算当前对象的邻域距离与其邻域邻居的邻域距离之和的比值,求出当前对象的离群程度然后根据离群程度消除离群值,再把数据集分割成若干部分,有利于后文DP-K-means算法的初始中心点的选取。实验表明,该离群算法在保证有效检测离群点的同时有着较大的时间优势,比较适合应用于聚类算法中。(2)提出了差分隐私的离群消除K-means算法DP-ODK-means。基于差分隐私的K-means方法需要在确保结果可用性的同时提高数据隐私安全性。本算法针对初始簇中心选择的随机性进行优化,根据所提出的R邻域距离的离群检测方法剔除异常值的影响,再从按照密度划分好的子集中选取初始聚类中心,这样可以减少迭代次数,最后通过增加拉普拉斯噪声对原始数据做出保护。实验表明,本方法在满足差分隐私要求的同时保留了数据聚类的可用性。(3)提出了基于差分隐私的DP-MCDBScan算法。结合了差分隐私技术的DP-DBScan方法可以有效解决数据集聚类过程中的信息安全问题,能有效处理加入了一定噪声的数据集。DP-MCDBScan算法通过采用多个核心点来优化核心点选取的方法,提高了当隐私保护预算参数较小时的聚类准确性,同时降低了时间开销,减小了初始点随机选取对聚类造成的影响。
其他文献
借助虚拟现实技术发展的成果,结合计算机立体显示技术,研究开发了双目成像法内窥镜立体显示技术.研究了双目成像法模型,设计出新型三维电子内窥镜的头端和视频系统,使医生能
介绍了高磷铁矿选矿脱磷和炼钢脱磷反应机理研究的最新进展,对生产低磷钢的各个环节如铁水预处理,转炉冶炼,钢水炉外脱磷尤其是炉外脱磷的渣系组成及脱磷工艺进行了详细的论述.探
营改增即营业税改增值税税收改制简称,因其有效解决了过去营业税重复征税难题,被各国所相采用。
为了研究水泥混凝土路面冰冻损伤机理,对混凝土材料的微观结构进行了研究,并对水泥混凝土路面温度场进行了有限元分析。基于应力场、多孔体系渗流场和温度场的多物理场耦合理
在美国次贷危机、欧债危机的影响下,国内出口乏力,经济转型迫在眉睫。培养产业转型升级和企业技术创新需要的发展型、复合型和创新型的技术、技能人才是国家转变经济增长方式
<正> 清瘟败毒饮出自《疫疹一得》一书,有清热凉血、泻火救阴之功,适用于实热炽盛的时疫瘟病,是余师愚治疗人的气血邪热俱盛的名方。几年来,笔者将其移用于兽医临床并随证加
主要采用了TJ-击剑反应时测试仪对上海市虹口击剑学校女花青少年运动员进行为期6个月的跟踪测试,结果显示利用该仪器进行击剑运动员专项反应训练,对运动员的训练有较为明显的
新课改更新了原有的教学理念,对教育教学提出了更高层次的要求,提供了更为科学的参考标准.中学数学与语文、英语并称为拉动学生学习成绩的“三驾马车”,在新课改的背景下,中
指出了风景园林设计专业是一门融自然科学、艺术人文科学和工程技术为一体的综合性交叉型学科。目前,高职院校的风景园林设计专业人才培养方式和途径研究还比较薄弱,根据"职
企业治理结构从根本上说是一个关于企业所有权安排的契约.一种好的企业治理结构是实现了企业所有权的最优安排.根据这一理论,从企业作为一个不完全契约的角度出发,分析由此而