基于泛化树的k-匿名数据集的挖掘算法研究

被引量 : 4次 | 上传用户:zjflxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,很多机构都以k-匿名的形式来发布数据。k-匿名隐私保护模型也越来越多的应用于各个领域。k-匿名数据是一种特殊的不确定性数据,它的元组泛化成每个可能性世界实例的概率是相等的,并且有k条元组的准标识符都是相同的,外界攻击者很难通过外表的连接来对数据进行攻击,所以k-匿名隐私保护模型能很好的保护用户的隐私。但是也由于它的特殊性,这种数据的可用性也就大大降低了,即使使用了最优化的k-匿名算法,也不可能产生令人满意的完全精确的数据,因此,不仅要在k-匿名算法上来做文章,更亟需找出一种可以对这类数据进行数据挖掘的方法来提高k-匿名数据的可用性。数据的世系描述了数据的产生及变化的过程,它应用于数据挖掘、数据核查、数据恢复和引用等很多领域。k-匿名数据是由确定值根据相应的泛化树派生出来的,因此,k-匿名数据的世系包含泛化树及派生规则,它描述了静态数据源(即原始表)通过泛化树进行演化,最终得到k-匿名表的过程。通过对k-匿名数据生成过程的分析,每一个k-匿名表都是原始数据表通过特定的泛化树泛化而来的,提出了泛化树的形式化定义,并在这个基础上,从一个数据接收者角度对泛化树做出了分析,提出了泛化树的构造算法,使接收者能够更方便有效的对数据进行挖掘分析工作。关联规则挖掘算法是数据挖掘中一个基础的、重要的方法,它的目的是在大量数据中发现项集之间的有趣的联系。现在很多研究学者对不确定性数据的关联规则挖掘算法都已经有了一定的研究成果,产生了不少优秀的算法,但是,这些算法往往都是在元组还原成可能世界实例的概率不等的基础上提出的,并不适用于k-匿名这种特殊的不确定性数据,为了解决这个问题,把k-匿名数据的世系应用到挖掘中去,提出了针对k-匿名数据的挖掘算法——基于泛化树的关联规则挖掘算法。它包括了k-项集的期望支持度算法和置信度算法,前者用于找到频繁项集,后者用于产生强关联规则。该算法与传统的确定或不确定数据的关联规则挖掘算法相比,对于处理k-匿名数据,在时间复杂度上有了极大的改善,提高了挖掘效率。实验结果表明,文中提出的算法是一种有效的处理k-匿名数据集的方法。
其他文献
新一轮土地流转与当年的联产承包责任制一样意义深远,是一件利国利民的大事。但在推进土地流转的进程中,存在一些亟待解决的问题:一些农地没有进行勾图定位,四至边界不清,权
随着因特网的高速发展,人们的生活已经已经与其密不可分,因特网已经成为人们获取信息重要的手段。目前,企业网站,购物网站,社交网站浏览量越来越多,用户在网站遗留的记录也越来越多
交感神经型颈椎病是由各种原因引起的颈椎失稳和继发病理改变,刺激了颈段硬脊膜、后纵韧带、颈椎小关节、Laschka’S关节囊、颈神经根及椎动脉组织时,反射地激压颈交感神经,
目的研究单采血小板添加不同浓度的PAS-ⅢM液后在保存期间对血小板功能的影响变化,探究更适合单采血小板保存的PAS-ⅢM液的浓度。方法将40个治疗量的单采血小板分成4组,分别
月1日,《上海市内河航道管理条例》正式实施,上海市航务管理处把整治乱装卸、清理渔网渔簖和打捞无主沉船作为贯彻实施《条例》的重点。至年底,取缔无证乱装卸码头35处;在内
报纸
简介垃圾衍生燃料(Refuse Derived Fuel,简称RDF)的概要,阐述了RDF的现状,提出几点发展RDF的思路。
作文教学是小学语文教学的重要组成部分,现将信息技术应用于作文教学中,为孩子的习作打开了一扇新的门窗,在作文教学中恰到好处地运用信息技术,能创设情境,激发孩子习作的兴
我国“十三五”规划建议中提到创新、协调、绿色、开放、共享的新发展理念是我国发展思路、发展方向、发展着力点的集中体现,必须贯穿于“十三五”经济社会发展的各领域各环
以三江源地区的黄南藏族自治州为例,以农牧民收入结构为中间变量,利用灰色关联度分析该地区产业结构调整与农牧民收入的关系。实证结果显示,产业结构的调整通过农牧民收入结
无线通信、移动宽带以及嵌入式等技术的不断进步,使得智能手机等移动设备的计算及网络功能不断增强。智能手机成为结合了电信网以及因特网的统一通信设备,并逐渐成为个人的信