一种基于特征类的高精度隐私保护数据发布方法

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:qjw335471690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今科技和信息紧密联系的时代,各研究机构需要彼此共享信息,以促进研究成果的推广,例如医疗机构可以发布医疗记录,用于流行病发展趋势方面的研究等.但是发布数据时会涉及个人隐私,为了保护隐私信息,目前通常做法是发布数据时将姓名,身份证号等敏感信息删除,防止隐私泄露.但是这种方法不能完全保护隐私,例如一种获得隐私信息的途径是将发布数据和外部其他数据源获得的数据进行链接处理,获得可以推演敏感信息的渠道,从而造成隐私泄露.图1给出此类隐私泄露的实例.表T1记录某州某年的医疗记录,需要将这些信息发布给用户(例如病理学家)使用,同时必须包含患者的隐私信息,即为保护隐私将患者的姓名、身份证号等标识符信息删除.本文提出特征类的概念,然后引入一种基于特征类的高效的K-匿名化方法Classfly算法,通过采用在概括过程中处理量小于K的特征类的方法来达到提高数据精度和减少执行时间的目的.大量实验结果显示,Classfly在提高K-匿名化系统的精度和效率方面有着良好表现.目前,Classfly方法还比较简单,能够满足较小的数据库集,当数据量很大时,需要进一步完善Classfly算法,优化其处理数据和概括数据方面的工作,使其达到K-匿名的同时,具有更高的效率.
其他文献
随着Internet及其应用技术的快速发展,万维网上数据得到了迅猛增长和发展,而如何从中挖掘出有价值的信息已经成为Web研究的一个重要问题.Web使用挖掘,即应用数据挖掘技术去挖
“我准备发一条微博,通知全社会:明年是我的闭嘴年.”俞敏洪说,他之所以要闭嘴,是因为说得太多了.不久前,他做了一个统计,结果发现,作为新东方教育集团董事长兼总裁,2013年他
2013年7月10日,北京机场3号航站楼的一声巨响,将东莞再次推到了舆论的中心.rn一位名叫冀中星的年轻人,用极端的方式引起人们的关注.2006年,他在东莞打工时被治安队殴打,致其
为了规范建设项目职业病危害控制效果评价工作 ,指导控制效果评价工作的开展 ,保证控制效果评价工作的质量 ,根据《中华人民共和国职业病防治法》及相关法规、标准 ,制定本导
稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都
会议
近几十年,作为数据应用领域的一个重要方向,频繁模式的挖掘引起了广泛的关注,但由于在大数据量上的频繁模式的挖掘结果数量相当大且结果之间存在某些关系,人们开始寻找一种能
会议
CE:我有这种感觉:在中国职场中的女性比美国的职场女性做的更好。因为在中国,你可以看见许多女性主导的企业你认为是什么产生了这种现象?桑德伯格:如果你看美国顶级公司的数
随着IPO开闸,这一轮VC行业调整即将告一段落.过去的两三年,被很多人认为是行业的冬天,毕竟投资的退出渠道窄了很多.但困难是相对的,有能力的VC在选择LP上有主动权.君联资本的
期刊
早在上世纪70年代人们就开始关注时态信息的处理和应用,时态关系代数、时态数据模型与查询语言、时态数据库、时态知识表达、时态逻辑等方面已有大量的理论研究成果,时态信息
会议
2010年9月29日国家有关部蚕出台“新国五条”,其后,被称为“最严厉楼市调控措施”的“限购令”在全国范围内实行。限购令包括:各城市本地户籍与持居住证家庭,最多限购两套住房;外