论文部分内容阅读
随着人工智能行业的飞速发展,数据挖掘技术作为人工智能的一个重要分支,在社会中得到了广泛应用,聚类分析作为数据挖掘领域中重要的算法,在各行各业扮演着重要的角色。然而利用聚类算法在挖掘数据潜在关联的同时,也可能造成用户的隐私泄露。因此,在利用聚类算法进行数据挖掘时,对隐私信息进行保护具有重要的意义。作为一种隐私保护方法,差分隐私定义了一种极其严格的攻击模型,将其应用于聚类分析过程中进行隐私保护,通过向数据加入拉普拉斯噪声在保证数据可用性的前提下对数据隐私进行了保护。针对基于差分隐私保护的聚类算法在数据可用性较低和隐私性不足的问题,本文做了如下工作:(1)针对k-means聚类算法在初始中心点盲目随机选择和对异常值敏感两方面的问题,提出了基于异常点检测与初始中心点选择优化的k-means聚类方法(OPT k-means)。该方法在检测异常点时利用本文提出的箱型隔离森林算法(IFAB),在选择初始中心点时利用质心距离最远的思想,结合决策距离与决策集合提出了初始中心点选择算法(IPS),在聚类过程中减少了异常值干扰,并使初始中心点尽可能地分布在不同的簇中的同时向簇中心靠拢。实验表明,该方法在提高聚类效果的同时有着较大的时间优势。(2)针对聚类分析过程中隐私泄露问题,为了实现差分隐私保护,提出了基于差分隐私保护的OPT k-means算法(OPTDP k-means)。该算法在对初始中心点加噪时利用本文提出的初始中心点加噪算法(DP-IPS),实现过程中对样本点加入拉普拉斯噪声降低了聚类分析过程中隐私泄露的风险,保证了隐私安全。实验表明,该算法在保护隐私不被泄露的前提下,更好地保证了数据的可用性,同时提高了算法的运行效率。(3)针对传统DP-DBSCAN算法安全性不足问题,提出了基于加噪方式改进的DP-DBSCAN算法(IDP-DBSCAN)。该算法对传统DP-DBSCAN算法加噪方式进行改进,对核心对象加入拉普拉斯噪声,更大程度上地降低了隐私泄露的风险。实验表明,该算法在很大程度上保留了传统DP-DBSCAN算法数据可用性的前提下,有较高的安全性。(4)针对传统CURE算法选择代表点时计算量大和异常点检测具有主观性等多方面问题,提出了基于决策距离改进的CURE算法(I-CURE)。该算法利用决策距离和决策集合检测异常点并选择代表点,利用异常点重分配算法(OLRB)重新划分异常点。为了解决CURE聚类算法和I-CURE聚类算法在聚类分析过程中的隐私泄露问题,提出了基于差分隐私保护的CURE算法(DP-CURE)和基于差分隐私保护的I-CURE算法(DP-I-CURE)。实验表明,I-CURE算法在时间效率和聚类准确性方面有较好的效果,DP-CURE算法和DP-I-CURE算法在满足安全性的同时,保证了数据的可用性。