论文部分内容阅读
互联网技术的发展促进了数据挖掘、人工智能等技术的发展,并深化了这些技术在日常生活中应用的深度以及广度,为日常生产生活提供了无尽的便利。近两年来,随着数据共享交互活动的日益增长,隐私信息泄露等问题频繁发生。如何保证发布后数据的安全性以及可挖掘性,针对该问题,近些年学术界展开了各种研究。本文对隐私保护技术的发展历史、基础知识、研究进展、经典模型以及算法进行介绍后,提出了一种多敏感数据隐私发布算法以及三种聚类改进算法,具体工作如下文所述:首先,文简介了近些年来基于聚类技术的多敏感属性隐私保护算法,并指出聚类部分算法的选取会严重影响隐私保护算法的精度的问题,而当前基于聚类技术的匿名算法在聚类部分通常采用k均值算法以及其改进算法,这些算法都具有容易陷入局部最优以及严重依赖k值的问题,为解决该问题,在对k均值算法以及其改进算法进行详细介绍后,本文基于其中的二分k均值算法提出了三种改进算法:中心重规划算法(Centroid Redivision Bisecting k-means,CRBK)、记录重规划算法(Record Redivision Bisecting k-means,RRBK)以及自适应记录重规划算法(Self-adaption Record Redivision Bisecting k-means,SRRBK)。并对这三种算法进行了仿真实验,实验结果表明改进算法在聚类准确率、稳定性以及信息损失均有良好变现。其次,针对当前多敏感属性隐私发布模型无法解决敏感属性集多样性差异过大情况下数据发布问题,提出了(l,x,w)多样性模型,该模型引入信息熵概念,通过约束等价组在敏感属性上的多样性以及均匀性来实现对敏感属性的安全保护。同时针对有损连接容易破坏发布后数据可挖掘性的缺陷,提出了使用无损连接发布策略的基于熵的l多样性聚类匿名(Entropy based l-Diversity Clustering,EBLC)算法,该算法基于聚类技术,依据非敏感属性对记录进行聚类,在同簇中依照其敏感属性生成满足(l,x,w)多样性的等价组,泛化所有等价组得到发布数据。同时对EBLC算法进行了仿真对比实验,分别从信息损失、运行效率以及抗攻击性等对算法进行验证,实验结果表明该算法在信息损失以及数据可挖掘性方面都有良好表现。