论文部分内容阅读
信息领域存在大量与个体相关的数据,这些数据被称为微数据。比如:医疗患者数据、人口普查数据、企业经营数据等。微数据对疾病研究、趋势分析、市场分析等都具有重要作用,因此,很多机构都在收集和发布微数据。然而,微数据通常含有个体的隐私信息,它的共享与发布会对个体隐私造成威胁。在发布微数据时,如何有效地保护个体的隐私已成为信息安全领域和数据库领域的研究热点。至今,该领域相继出现了很多研究成果,但是这些成果很少考虑到不同敏感值之间的语义相似度,不能抵制近似攻击。因而,为了更好地保护微数据中的个体的隐私信息,开展抵制近似攻击的微数据隐私保护模型及算法的研究具有重要意义。本文从匿名化模型及其对应的算法两个方面,对微数据发布中的相近性攻击进行了研究并提出了相应的匿名模型和算法,主要工作有:(1)提出抵制分类型敏感属性近似攻击的(k,ε)-匿名模型。现有的匿名化方法,在匿名化分类型敏感属性微数据上存在不足,不能很好地抵制近似攻击。针对该问题,提出了可以抵制近似攻击的(k,ε-匿名模型,可分为强(k,ε)-匿名模型和弱(k,ε)-匿名模型,该模型要求匿名数据中的每个等价类都是k-匿名的,对等价类中敏感值约束s-相似程度不同。为实现(k,ε)-匿名模型,提出了(k,s)-KACA算法。实验结果表明,强(k,ε)-匿名模型和弱(k,ε)-匿名模型增强了敏感值的约束,提高了匿名数据抵制近似攻击的能力,能够更好地保护个人隐私信息。(2)提出抵制近似攻击的隐私保护(l,e)-diversity模型。现有的l-diversity模型没有考虑到不同敏感值之间存在语义相似度,不能很好地抵制近似攻击。为此,提出了可抵制近似攻击的隐私保护匿名模型一(l,e)-diversity模型,该模型要求匿名数据中的每个等价类中至少有l个良性表示,且任2个敏感属性值不是e-相似的。最后,基于分解技术,提出了最大桶分组算法,实验结果表明,(l, e)-diversity的匿名模型比l-diversity匿名模型具有更高的多样度,能够更好地抵制近似攻击。(3)提出了面向多敏感属性近似攻击的(l, e,m)-diversity匿名模型。现有的数据隐私发布方法多是面向单维敏感属性的。然而,在现实生活中,发布的数据往往包含多个敏感属性。通常情况下,多维敏感属性的数据发布也存在近似攻击的问题。针对该问题,在前一个工作的基础上,提出了(l,e,m)-多样性模型,其中m为敏感属性的个数,该模型要求匿名数据的每个等价类中,每一维上都满足(l, e)-diversity匿名约束。同时也提出了实现(l,e,m)-多样性模型的算法--MSBF算法。实验结果表明,(l, e, m)-diversity匿名后的数据比MBF, MSCF和MMDCF三种算法都具有较高的保护隐私的能力,解决了多维敏感数据隐私保护问题。