论文部分内容阅读
伴随着网络和信息技术的发展,互联网已经融入到了我们生活的方方面面。特别是随着Web2.0技术的应用,社交网络迅速兴起,如QQ空间(Qzone)、人人网(Renren)、朋友网(Pengyou)、新浪微博(Weibo、Facebook、Twitter等社交网站,这些网站为人们聊天交友和及时分享信息提供了便捷的服务,吸引了大量用户参与进来,成为当前最为迅猛发展网络应用之一。急剧增加的社会网络数据正在成为互联网的一种极有价值资源,它被用于群体行为分析、社会结构分析、以及舆情监测等多种科学研究和商业用途。围绕社会网络数据的分析已成为学术界和商业界的一个重要方面,而将这些社会网络数据发布也已成为重要应用需求,但是由于社会网络数据包含了大量的个人信息,发布后可能造成个人隐私信息的泄漏,如何在发布社会网络数据的同时保护个人隐私信息成为当前研究热点之一近年来,在社会网络数据发布研究中,研究者一般将社会网络数据抽象成图,图中的节点代表个体,图中的边代表个体间的联系。图数据和传统的表数据不同,现有的隐私保护研究中考虑表数据个体间是相互独立,但图数据个体间存在联系,故传统的对表数据的发布的方法不能直接运用到图数据中来。目前,研究者研究出了许多匿名模型和匿名技术来阻止通过社会网络结构信息进行节点的重识别,但匿名技术需要改变社会网络的图结构,尤其是对于那些具有高度数分布特征(例如幂律分布特征)的少数节点的社会网络,现有的匿名技术需要添加大量边,从而使数据失真严重。因此,如何权衡保护个体信息的隐私性和发布数据的实用性已成为社会网络数据发布中的重要问题之一。通过对社会网络调查分析,事实上在大多的社会网络中,用户的隐私保护需求和敏感性是差异化的,也是就是社会网络图中节点的隐私保护需求是多样化和个性化的,而对所有节点采取统一的隐私保护策略无疑会造成某种程度的“过度保护”,从而带来不必要的数据失真,针对此问题,本文围绕具有隐私个性化保护特征的社会网络数据发布模型和方法开展研究,主要工作如下:首先,分析了社会网络数据发布隐私保护技术的现状,讨论了社会网络数据发布中隐私保护的个性化问题,描述具有个性化隐私保护的社会网络数据发布基本隐私模型,包括隐私攻击的背景知识和隐私评价标准。其次,分析了在节点度攻击下社会网络数据的两种匿名保护方法:k-度匿名、k-度-|-多样性匿名,并根据实际隐私保护对边的敏感性需求,提出了(k,l,p)-匿名模型;在此基础上,结合个体个性化的隐私保护需求,提出一种新的个性化(k,l,p)-匿名模型和算法,以降低在数据隐私处理中的数据失真度。最后,基于提出的模型和算法实现了一个具有个性化特征的社会网络数据隐私保护原型系统,并在几个真实数据集上,通过对比实验验证了该隐私保护方法的有效性,在保证数据隐私保护力度的同时提高了数据的实用性。