移动数据库中基于k—匿名的隐私保护模型研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:qianchuanzhishui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:由于移动网络低安全等特性,导致移动数据库中与用户隐私相关的字段处在一种可能会被披露的状态,如何实现高效可靠地隐私保护是当前移动数据库中一个主要的研究方向。其中k-匿名技术已被证明是一种可靠地数据查询发布技术,在文中,我们在移动数据库引入k-匿名技术从而对数据库中用户的相关数据或敏感数据进行保护,以防止具有知识背景下的隐私披露。实验证明具有一定的有效性,时间复杂度也在可控的O(k)级别,比较高效。
  关键词:移动数据库;k-匿名;隐私保护
  中图分类号:TP309
  随着便携式移动设备的普及,人们在移动设备上开始在任意时间任何地点地利用移动数据库接入某些应用系统,从中获得自己所需的信息。这种工作方式极大地方便人们的工作、学习方式,但是由于移动终端自身以及移动网络的低安全性,使得在移动网络必须对传统的技术加以改进,以让移动终端上的数据和查询结果可以实时可靠地传输。其中尤为重要的是一类特殊的数据——隐私。关于隐私的保护被国际机构公认为基本的权利,隐私也被定义为“一种与公共利益无关、群体利益无关,当事人不愿意他人知道或他人不便干涉的个人私事”的权力[1]。在数字环境中,隐私也可以被定义为个人可控制自身信息的被收集和使用。在本文中的隐私保护即是指在发布的数据中个人的隐私信息能够得到有效的保护。由于大量的Web2.0应用的产生,越来越多的社会网络数据也被公布或泄漏,攻击者根据某些方式可能获得用户的个人隐私,因此移动数据库中用户的隐私保护也愈加成为社会的关注点。
  1 网络隐私的泄露途径
  移动数据库在终端上,一般包括嵌入式数据库、同步服务器两部分;同步服务器负责与中心数据库的数据保持一致。因此,移动数据库所面对的可能构成的安全威胁,也主要来自于这两方面:第一是移动计算终端的丢失,设备丢失会使保存在终端数据库中的用户敏感信息面临泄露风险;第二是黑客利用无线信号对服务器进行攻击,可能会因此造成中心数据库中信息泄漏和恶意篡改。
  从当前在隐私保护中切入的角度来看,当前的隐私保护技术可分为面向用户的隐私保护,和面向数据的隐私保护。
  (1)面向用户的隐私保护主要从使用者的角度考虑个人隐私信息的保护,也就是从用户的角度来分析、找出并保护某些在用户看来不想被其他人所使用和读取的一类敏感信息,如数据库中的某些字段的值以及在一系列数据上的某些操作,如查询某类信息等。
  (2)面向数据的数据库隐私保护则需要考虑如何在技术层面防止利用用户的一些数据和行为信息来唯一的确定某个用户,并对应上该数据所表达的隐私信息;即需要应用一些隐私保护机制,如用户的匿名、用户泛化、行为模糊、行为不可连接来消除由数据访问所引发的隐私泄露等问题。
  移动数据库中用户隐私在不同的系统和环境中具有不同的个人需求,如医院信息管理系统,病人的身份证号、家庭住址、疾病信息、医疗服务与药品购买记录这些字段就属于用户的个人隐私;在人口管理系统中的市民家庭住址、收入状况、个人爱好、犯罪记录等就属于个人隐私;至于手机银行、掌上购物,其中客户的私有信息及其交易行为就属于用户的隐私字段。一般数据库中身份标识属性ID就记录了可以唯一识别一个人的取值,比如身份证号、电话号码、姓名等信息。除以上单字段外,还可以通过字段组合来得到用户的个人信息,我们称为准标识属性(QI),其中的属性值单独不构成隐私属性,但通过连接推理后可得到ID字段同样的效果[2]。对于这些数据我们不能简单的屏蔽了之,而是要寻找出一种可靠高效的算法来实现匿名保护。
  2 基于k-匿名的隐私保护模型
  2.1 算法思想
  数据匿名隐私保护的思想是对初始的数据进行甄别,只发布数据集中较不敏感的数据来保护隐私。数据匿名隐私保护一般采取抑制和泛化,抑制即是指不发布该数据项;泛化,即是指将某些具体的数据值用不那么具体的数据值,去替代的一种方法[3]。其中使用最广、最为经典的就是k-匿名算法。
  P.Samarati和L.Sweeney提出的k-匿名原则是基于数据匿名的隐私保护中最常见的方法,该原则要求所发布的数据表当中至少有k条记录是相同的,从而使得攻击者不能将个体从这一样的k条记录当中分辨出来。此处的不能分辨只是记录的对非敏感属性来说的,这不能互相分辨的k条记录被称作为等价类。本文也是基于对k-匿名技术的详细研究并结合时下的研究热点之一的移动数据库的背景,改进数据库中敏感字段保护当中已经提出并证明有一定作用的算法,使之达到个性化隐私保护的目的。
  2.2 相关定义
  k-匿名模型,主要的应用对象是表集数据的隐私保护,表集数据中发布的记录要求具有如下的格式:T=(ID,QI,SA,NSA)。其中ID为主键字段,该字段可用来唯一的识别记录所有者,如身份证号和姓名等属性;QI为准标识字段,该字段单独不能识别记录,但组成的准标示符组(QI Group)可较高可能会识别出记录所有者,如民族,性别,邮编等;敏感属性(SA)指的是对个人而言敏感的隐私信息属性,如患病史,薪酬待遇等;非敏感属性(NSA)指的是其他的、除前面所述的以外的属性。对于数据集T,经匿名化处理后得到表T',若T'满足K-匿名,当且仅当T'中任一等价组的记录数不少于k条。假设有原始数据集T,首先将标识符去掉,最后属性集合包含准标识符QI={age,sex,country},敏感属性S={disease},数据集中准标识符值均不相同,容易被恶意者利用链接攻击获得个体的疾病信息。
  因此,应用到移动数据库隐私保护的k-匿名模型,需要保证即使攻击者有社会网络结构的背景知识,对于敏感个体也能够至少有其他k-1个与其具有相同结构的节点,使得攻击者只能够以不大于1/k的概率识别出目标个体,k-度匿名方法可以保护敏感节点免于遭受已知节点度的背景知识的攻击。   2.3 相关算法
  输入:原始数据表T,匿名参数k
  输出:匿名化后的数据集T’
  过程:
  (1)将原始数据表T进行数据预处理,即进行数据清理和数据变换,并对各维敏感组赋值,即敏感属性Si分为g个组,表示为(Si1,Si2,…Sig),则对敏感组Sij进行敏感度赋值,以保证同一敏感组取值相同,不同敏感组有不同的敏感阀值。
  (2)While(|T|>k)
  (3)按簇记录数进行升序排序;
  (4)Insert(Random Select(min(|C|)),EG);/*从簇记录数最小的簇中随机选择一条记录t*/
  (5)Delete(t);/*从相应簇和全域中删除记录 t*/
  (6)Insert(Top(mean(EG),c),EG);/*k-最近邻记录集*/
  (7)Insert(Topk-l,(mean(EG),T),EG);/*(k-l)-最近邻记录集*/
  (8)Delete(Topk-l(mean(EG),T));
  (9)End While
  (10)If|T|>(k/2)|E|
  (11)传统K-匿名等价组划分;
  (12)For each record t in T do/*剩余的记录计算相似度并加入相应等价组*/
  (13)Insert(t,EG(Top(t,T’)));
  (14)Delete(t,T);
  (15)For each outliers record t in Tdo/*噪声计算相似度并加入相应等价组*/
  (16)Insert(t,EG(Top(t,T’)));
  (17)对数据表T’完成匿名化处理;
  2.4 算法评价
  隐私保护技术不仅需要保护好用户的隐私(当然这是其最主要的目的),还必须要考虑到隐私保护的计算开销和数据发布后对于应用研究的价值。采用抑制实现最小化的k‐匿名问题已经证明是NP‐hard问题,其时间复杂度为O(k)[4,5]。除此之外,在移动数据库中,通讯开销也常常关系到算法性能,常作为衡量分布式算法性能的一个重要指标。
  设数据集的模式:T={ID1,…IDr,ST1,…,STt}。其中IDi(i=1,2,…,r)为身份标识属性;QIj(j=1,2…,s)为准标识属性;STk(k=1,2,…,t)为敏感属性。为了保护个人隐私,发布数据集需要设定一个隐私保护需求ψ,为了达到隐私保护需求ψ,需要对数据集T中的元组t进行转化得到t′,设转化函数为f,对转化函数f设t=(d1,…dr,q1,…,qs,s1,…,st),f把t转化为t′=(d1′,…dr′,q1′,…,qs′,s1′,…,st′),即t′=f(t)。通常在微数据发布处理方法中,f并不修改敏感属性的取值,即sk=sk′(k=1,2,…,t),对于需要处理的数据集T,转化函数f把T转化为发布数据集PT,其中PT={f(t)|t∈T}。转化后(q1′,…,qs′)取值相同的那些元组形成一个QI分组。为了尽量准确地评价发布数据,需要建立评价指标σ。隐私保护的数据发布问题可以表示为一个四元组PPDP=(T,ψ,f,σ),其中T是需要发布的数据集,发布的数据集为PT={f(t)|t∈T},ψ是隐私保护需求,f是转化函数,σ是对发布数据集的评价结果,隐私保护的数据发布问题就是在满足隐私保护需求ψ的前提下,以最大化数据有效性指标σ实现隐私信息的合理保护和获得数据信息的最大效用[6]。
  虽然等价类越大或抑制记录数越多,隐私保护力度越强,但是过度的泛化和抑制并非良策,会造成匿名化后表的总代价太高、数据可用性太小;因此,K-匿名隐私保护中数据可用性好的标志是:等价类越小和抑制记录数越少。
  2.5 用户查询比较
  我们以一种比较注重隐私的应用环境——医院就诊信息为例,在用户就诊时主要的信息包括:就诊卡号、病案号、姓名、性别、年龄、医保费用类别、病史资料、主诉、现病史、既往史等。其中每个数据项的隐私关联级别分别设定为3级代表直接关联隐私,2代表组合关联隐私,1代表隐私影响度较低。移动数据库表如表1所示,其中包含了许多私人的基本信息情况,因此在发布数据之前需要进行匿名化处理,以防止私有信息的泄露[7,8]。在此假设{年龄,性别,居住地}为准标志符,{疾病,}为需要进行保护的二维敏感属性,通过K-匿名化算法将数据集进行处理后得到的数据如表2所示。
  其中的姓名(ID字段)因在敏感集中,所以该字段被屏蔽,而邮编、年龄等视图组合后的相关敏感属性(QI字段)匿名后显示。从最终的显示表上,可以对用户的个人隐私信息进行有效的保护,在不影响数据统计,如对当前流行性或多发性疾病的判断基础上,可以防止用户的个人信息的泄露[9]。
  3 结束语
  在文中,我们针对移动数据库中面向数据的隐私保护服务,引入已经证明可靠有效的k-匿名算法。首先对字段的隐私敏感度进行设置,并进行数据预处理;随后对其中的数据按k-匿名算法进行泛化和抑制后在等价类中选择满足隐私评价体系的数据进行发布,从而满足用户的隐私保护需求。最后以一个表的最终保护实例进行讨论说明,为移动数据库管理系统中,隐私的建立和保护提供设计依据。越来用多的移动设备进入的人们的生活与工作中,相对应的,对其中个人的信息安全也越来越重视,所以关于移动数据库还有很多相关的关键技术还有很多待研究的方面。
  参考文献:
  [1]刘晓娜.组合视图在移动数据库中隐私保护的应用[J].计算机光盘与软件,2013,6:112-114.
  [2]丛慧刚.元数据驱动的大型数据库数据迁移工具实现[J].科学技术与工程,2011,10:92-96.
  [3]韩建民.面向数值型敏感属性的分级L多样性模型[J].计算机研究与发展,2O11,48:147-158.
  [4]童云海.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010,4:50-56.
  [5]闫红蕾,曾文火.Pocket PC与SQL Server数据库同步移动数据的研究[J].科学技术与工程,2007,18:60-65.
  [6]刘晓娜.物化视图在移动数据库查询优化中的应用[J].吉林通化师范学院学报,2013,2:46-48.
  [7]曾凯.隐私保护模型研究[D].重庆大学,2012.
  [8]徐勇.一种考虑属性权重的隐私保护数据发布方法[J].计算机研究与发展,2012,5:913-924.
  [9]王恩彬.分布式环境下保持隐私的关联规则挖掘算法[J].科学技术与工程,2009,1:201-204.
  作者简介:刘晓娜(1980-),女,甘肃庆阳人,讲师,硕士,研究方向:移动数据库、分布式系统;马少斌(1972-),男,甘肃兰州人,副教授,研究方向:多媒体技术;王栋(1975-),男,甘肃兰州人,副教授,研究方向:分布式系统。
  作者单位:兰州文理学院计算机系,甘肃兰州 730010;兰州交通大学电信学院,甘肃兰州,730070
其他文献
摘 要:随着网络信息技术的不断提高,互联网不断推动着社会经济发展,已经成为人们日常生活中不可或缺的一部分。我们对网络资源的开放和需求越来越大,网络安全问题日显突出,并受到人们前所未有关注。本文从计算机网络信息安全概念和存在威胁出发,结合目前主流计算机网络安全技术,提出网络信息安全防范措施。  关键词:计算机网络;信息技术;安全防范  中图分类号:TP393.08  随着信息技术的飞速发展,计算机网
期刊
摘 要:通过对校园学习和生活的种种观察,发现了一些问题和不方便之处,又对发现的问题和不方便作了综合分析,预测了一种未来校园管理与安全维护的发展方向,即一款软件包揽所有的校内业务,我们对该软件作了可行性分析,也看到了软件对未来及现在重大的意义,我们也在为此软件的诞生做努力,未来的校园会因这款软件焕然一新。  关键词:校园管理;计算机安全;网络校园  中图分类号:TP393.08  21世纪是一个网络
期刊
摘 要:针对在线社交网络朋友推荐问题,尝试利用描述多种关系的多子网复合复杂网络构建社交网络的复合网,引入连接度来表示对已连接朋友的喜爱程度,从而为用户提供个性化推荐。本文以微博中为用户推荐关注为例。  关键词:多子网复合复杂网络;连接度;个性化推荐;微博关注  中图分类号:TP301.6  近年来,国内微博快速发展,微博中蕴含大量的信息,而对某一用户而言,大部分信息是他并不感兴趣的,同时不同用户对
期刊
摘要:移动互联、社交网络、电子商务极大的拓展了互联网应用的疆界和领域,高速发展的互联网,充斥着海量的各种类型的数据,能够从大量的数据中迅速的收集、处理自己需要的数据,并对这些数据进行高效率的管理,是适应大数据时代必须要迎接的挑战。  关键词:互联网;处理;大数据;挑战  中图分类号:TP311文献标识码:A文章编号:1007-9599 (2013) 07-0000-02  1大数据时代的来临  从
期刊
摘要:实训室文化是实训室内涵建设的重要内容,是高职院校实训环节的灵魂。做好实训室可视化文化建设,不仅便于同学们理解,而且便于同学们接受,为实践教学环节营造良好的文化教学环境,潜移默化对同学们日常行为带来好的影响,也是实现高职教育中高素质应用型技能人才的培养目标,提供坚实的文化底蕴和强大的精神支撑。  关键词:实训室文化;企业文化;可视化;8S管理  中图分类号:G641文献标识码:A文章编号:10
期刊
摘 要:上篇文章提到VLAN划分可以起到隔离网络的作用,但在实际应用中需要跨不同VLAN进行数据通讯,这就需要在原有隔离的基础上实现路由选择。本文提到两种方式,一种是采用单臂路由,另一种采用三层交换机。利用思科模拟仿真软件进行网络安全管理教学,学生在动手动脑中直观生动学习到网络知识,教师也能应用现代教学工具提高教学效果。  关键词:仿真;网络安全;跨VLAN通讯;单臂路由;三层交换  中图分类号:
期刊
摘 要:随着互联网技术发展,计算机已经进入千家万户,成为不可缺少的必需品。神木县神木职教中心在学生的专业课程中,也将计算机设置为基础课程。神木职教中心的学生要想顺利毕业,必须考取计算机技能证书。神木职教中心的学生素质不同,所以计算机基础自然不同。要想在计算机教学中取得丰硕的成果,就要将他们的兴趣激发出来。在实际的学习中,结合身边的例子将网络世界带入到学生的生活中。计算机教学中,因为学生的基础参差不
期刊
摘 要:本研究采用内容分析方法对2002年——2011年间《羊城晚报》有关网民的报道进行抽样分析,旨在了解网络在中国传播的近十年来,主流媒体视野中网民形象经历怎样的变迁。从而透析网络社会的演变历程,为未来网络社会的调整与发展提供参照。  关键词:内容分析;网络形象;网络社会  中图分类号:G206  互联网进入我国大众视野已经十余年,随着信息产业急剧发展,互联网基础设施和内容的不断完善,我国网民数
期刊
摘 要:随着信息技术的快速发展和应用,卷烟厂在信息化建设方面投入的人力、物力及资金越来越多,在信息管理方面的挑战性也越来越大,如何让信息技术真正地为生产服务,与生产过程紧密结合,提高生产效率和经济效益成为当下各企业所必须解决的难题。本文主要对卷烟厂信息技术专业团队的建设思路、意义以及技术团队的日常管理进行阐述。  关键词:信息管理;技术团队;激励机制;生产效益;信息技术  中图分类号:G203 文
期刊
摘 要:高职学生的就业形势日益严峻,在此背景下,如何提高高职学生的就业竞争力,有效解决高职学生的就业问题,成为了社会关注的热点话题。毕业生找不到合适的工作岗位,企业招聘不到合适的人才,这种供需矛盾很大程度上是因为对高职学生职业生涯规划教育的不到位而引起的。对高职学生进行专业的职业生涯规划教育,有利于学生构建合理的知识结构、提高综合素质,有利于树立崇高的职业理想。  关键词:就业难的原因;职业生涯规
期刊