论文部分内容阅读
聚类算法是数据挖掘中重要的算法,在多个应用领域中扮演着重要的角色。特别在服务质量(Quality of Service,QoS)预测框架中,服务聚类次数常用于衡量用户间的相似性;而在分类数据可视化中,聚类用于寻找数据集中合适的聚合点。随着互联网技术的迅速发展,带有敏感信息的数据迅速增长,这给广大用户的个人隐私带来很大的风险。围绕着聚类算法相关应用的隐私保护问题,已经引起学术界的广泛关注。差分隐私保护是近些年兴起的隐私保护方法,通过加入少量噪声,保障个体信息的隐私性,同时尽可能保证了数据的可用性。在服务质量预测中添加噪声扰动服务聚类次数,适当干扰相似用户的选择,避免用户个体的偏好的直接泄露。在分类数据可视化过程中,利用差分隐私机制添加噪声扰动聚类的迭代中心点,达到分类数据的隐私保护。为此,本文主要结合聚类算法,将差分隐私保护方法应用到服务质量预测和分类数据可视化过程中,并且通过隐私性分析和大量实验表明,新提出的方案在保护数据隐私的同时,能够有效地保证预测精确度,以及获得安全视图。主要的研究工作和贡献包括以下两个方面:(1)提出了一种基于差分隐私保护的服务质量预测算法,该算法的主要研究工具包含,指数机制和改进的覆盖聚类。首先通过改进的覆盖算法,计算服务聚类次数并归一化作为用户间的相似度;然后以此定义效用函数,接下来设计出两种指数机制,为目标用户挑选相似用户,一种是根据单个用户的效用进行选取,一种是多个用户进行组合,根据多个用户的总效用进行选取;最后,基于相似用户对目标用户的缺省服务质量值进行预测。本文不仅证明了该算法满足ε-差分隐私保护,而且在真实数据集WS-Dream上开展实验,结果显示,与现有的以皮尔逊相关系数作为效用函数相比,本文的方案在保护数据隐私的同时,明显提高了预测的精确度。(2)提出了一种满足差分隐私保护的分类数据可视化算法,该算法的主要研究工具包含,拉普拉斯机制和k-modes聚类算法。首先,提出改进的隐私保护k-modes 算法(Improve Differential Privacy k-modes,IDP k-modes),将数据集均分成k个子集,并统计出每个子集的属性众数作为中心点,取代了传统k-modes算法中随机选取A个中心点。通过实验分析,IDP k-modes相比于现有的DP k-modes,提高了分类数据聚类的精确度和稳定性;然后,为了解决由于分类数据密集所造成的可视化图像叠加严重,以及可视化过程中隐私泄露的问题,本文在IDP k-modes算法的基础上,考虑均分的方法,提出差分隐私保护均分数据聚合算法k-modes(Differential Privacy Equipartition k-modes,DPE k-modes)。在每次迭代的过程中,保持A个簇中的数据点个数一致;最后,将&个簇中的中心点作为聚合点,进行平行坐标法得到可视化图像。本文通过隐私性分析证明DPE k-modes满足ε-差分隐私,并且在真实分类数据集Breast Cancer上开展实验,验证了DPE k-modes能够支持较大的k值且保持较好的聚合质量,同时输出的安全图像保持较高的可用性,较好地保留原图像的分布、关联等特性。