论文部分内容阅读
为了防止用户隐私信息的泄露,隐私保护技术在数据传输、身份认证、人工智能等领域获得广泛研究,其中面向数据挖掘的隐私保护技术成为较热门的一类。这类研究通常采用匿名化方法,以保证数据可用性为目标,降低发布数据集中用户隐私信息泄漏的风险。然而,保护隐私数据和降低匿名信息损失的本质是NP-hard问题,且大多仅考虑传统数据类型而存在较大的应用局限性。本文主要针对不同的数据类型和隐私保护需求,提出适当的匿名算法和匿名模型,致力于在保护隐私信息的同时最大限度提高数据可用性,具体工作主要包含以下内容:(1)针对用户多记录发布数据集匿名过程的信息损失问题,提出一种基于自然等价组(Natural Equivalence Group,NEG)和贪心聚类的数据匿名算法。首先对数据维度变化造成的泛化信息损失进行定量研究,打破以元组为单位的匿名传统,以提高匿名效率。同时以自然等价组为单位提出基于贪心聚类的数据匿名发布算法,将记录间的属性距离与泛化信息损失相关联,使聚类的过程始终以最小化信息损失为目标,以提高匿名后数据集的完整性。此外,在传统数值型准标识符属性的基础上,明确了分类型准标识符属性的泛化策略和信息损失计算方法。实验结果表示,所提算法在降低信息损失和提高运行效率方面均有较好的表现。(2)现有的数据匿名模型和算法大多以抵御准标识符属性上的链式攻击为目标,而忽略了敏感属性也可形成敏感指纹作为攻击对象。首先以k-匿名和l-多样性理论为基础,提出一种能够同时保护用户身份信息和敏感信息的双向匿名模型(Bidirectional Personalized Anonymity Model,BP-匿名模型)。该模型可根据实际需求分别设置准标识符属性和敏感属性的匿名强度,提供相对独立的隐私保护。在此基础上进一步提出了满足BP-模型需求的隐私保护算法,同时为了降低泛化造成的信息损失,算法为不同敏感度的属性值设计梯度泛化策略。实验结果表示,算法在提高隐私保护强度的同时,保证了匿名后的数据集可用性。(3)传统匿名数据发布算法大多针对关系型数据进行设计,将其直接应用于图数据匿名可能无法抵御以子图结构为背景知识的攻击。针对这一问题提出社交网络图数据的匿名发布算法,与关系型数据匿名不同,该算法在进行节点划分时需要综合考虑社交网络数据节点的连接关系和用户的属性信息,将同时具有结构和属性相似性的用户节点进行聚类形成超点,使匿名后的图数据能够同时抵御以子图结构和用户属性链接为背景知识的攻击。考虑到社交网络数据存在较多包含缺失数据的元组,将单位信息熵引入属性距离的度量,减少缺失数据匿名造成的数据污染。实验结果表明算法在聚类质量和匿名后数据集的可用性上与同类算法相比具有明显的优势。