论文部分内容阅读
大数据在各行各业中有着重要应用,在数据为王的时代,掌握了数据就是掌握了制胜的砝码,业界和学术界都越来越重视数据的作用。平时看似不起眼的数据信息,在经过数据挖掘、分析后,会发现其中重要的、有价值的规律,为下一步的经营、管理等起到预测指导作用。然而在挖掘这些数据的潜在关联的同时,不可避免地会涉及到个人资料,如何确保数据的隐私性和防止个人信息外泄是目前面临的重要问题。怎样在信息挖掘过程中对用户的资料进行保护成为当下隐私保护的一个重要研究方向。在众多隐私保护方法中,差分隐私因为其坚实的数学基础、隐私性水平可度量的优势,与数据挖掘的结合可以有效地确保数据不会因挖掘而泄露隐私。针对基于差分隐私保护的数据挖掘算法,本文作了如下工作:(1)提出了 R邻域距离离群消除算法。算法通过计算当前对象的邻域距离与其邻域邻居的邻域距离之和的比值,求出当前对象的离群程度然后根据离群程度消除离群值,再把数据集分割成若干部分,有利于后文DP-K-means算法的初始中心点的选取。实验表明,该离群算法在保证有效检测离群点的同时有着较大的时间优势,比较适合应用于聚类算法中。(2)提出了差分隐私的离群消除K-means算法DP-ODK-means。基于差分隐私的K-means方法需要在确保结果可用性的同时提高数据隐私安全性。本算法针对初始簇中心选择的随机性进行优化,根据所提出的R邻域距离的离群检测方法剔除异常值的影响,再从按照密度划分好的子集中选取初始聚类中心,这样可以减少迭代次数,最后通过增加拉普拉斯噪声对原始数据做出保护。实验表明,本方法在满足差分隐私要求的同时保留了数据聚类的可用性。(3)提出了基于差分隐私的DP-MCDBScan算法。结合了差分隐私技术的DP-DBScan方法可以有效解决数据集聚类过程中的信息安全问题,能有效处理加入了一定噪声的数据集。DP-MCDBScan算法通过采用多个核心点来优化核心点选取的方法,提高了当隐私保护预算参数较小时的聚类准确性,同时降低了时间开销,减小了初始点随机选取对聚类造成的影响。