论文部分内容阅读
随着互联网的发展,社交软件已经成为人们生活必不可少的一部分,人们可以用社交网站或社交软件进行普通日常交流、学术交流和投票选举等等活动。在线社会网络的大量增长,这为社会网络分析创造了前所未有的独特机会。人们可以对这些数据进行分析,分析结果可以对研究者有大量的商业价值、社会价值等。比如,数据管理者可以通过相关的数据进行社会学研究、传染病研究、商业模式分析等等,社会网络数据蕴涵的价值正逐步体现。为了实现基于社会网络数据分析和应用的价值,在发布社会网络数据之前需要保证数据安全,因此,针对此类数据的有效隐私保护分析技术至关重要。当前对社会网络数据隐私保护工作方面存在的不足之处是现有的工作都是对图中节点和边的修改,但是这种图和边的修改容易破坏整个图的结构信息和关联性信息。社会网络数据是一个复杂结构数据,不仅结构对边是有关联的,节点的属性跟边也是有关联的,如果不考虑社会网络数据的关联性,仅仅只对边或节点敏感信息进行隐私保护处理,对原始数据的关联性破坏较大,从而会导致数据的效用性降低。其次现有考虑带属性社会网络数据的隐私保护工作中,考虑数据中的关联性较单一,然而这并不符合实际情况,节点的属性是多敏感属性,包括敏感和非敏感属性,多个敏感属性互相关联,具有复杂的内联性,这些属性具有多种关联性。本文解决的核心问题是保证社会网络数据边和属性的隐私信息同时,保证社会网络数据的效用性。为了解决以上存在的不足之处,本文的创新点和主要工作包括以下几个方面:(1)针对带属性的社会网络发布图中的隐私保护问题,提出节点之间的结构关联度、属性关联度和综合关联度定义,利用综合关联度对原始图进行聚类划分,平衡了节点间的连接紧密性和属性相近性,有利于在加噪的过程中保护结构和属性之间的关联性,减小结构和属性的信息损失值,进而提高社会网络数据的效用性。(2)在每个子图中,本文使用层次随机图模型表示每个子图结构,在层次随机图模型上使用拉普拉斯机制对样本树中的连接概率进行加噪来满足差分隐私保护方法,实现对社会网络数据中边信息的隐私保护,而不是采用直接对边随机扰动的做法,因此提高社会网络数据的结构效用性。(3)在对多敏感属性进行隐私保护的工作中,本文区分敏感属性和非敏感属性,分别视为准标识符和敏感属性。然后根据不同隐私保护方法的特点,采用多种隐私保护模型融合的方法,基于准标识符设计泛化树规则使其满足k-匿名方法,基于敏感属性设计泛化树规则使其满足l-多样性。泛化树是根据不同属性的含义提前自定义的不同泛化树。(4)最后,在三个真实数据集上进行实验,通过实验结果验证本文提出的方法在保证相同隐私保护强度的同时,更好的保护了社会网络数据的结构和属性信息。提高了待发布图与原始图结构和属性的一致性和效用性。