面向关联规则挖掘的隐私保护算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hua1kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于现代计算机硬件技术、互联网技术以及多媒体信息技术的高速发展,人们所拥有的数据量已经达到了前所未有的规模,而数据挖掘技术的出现使得对大量的库存数据进行有针对性地处理和分析以得到隐藏在其中的知识成为可能。然而在随着数据挖掘技术不断的发展和延伸,数据挖掘应用可能带来的隐私信息泄露的风险与日俱增,因此基于隐私保护条件下的数据挖掘已成为研究的热点领域。本文首先对基于隐私保护的数据挖掘技术的基本概念、国内外研究现状以及相关的算法进行了综述,而后选择基于关联规则挖掘的隐私保护数据挖掘算法作为研究的重点。在关联规则挖掘算法中主要研究了基于随机扰动的MASK算法,此算法在兼顾隐私保持度和挖掘结果精确度上有着良好的性能,但其执行时间效率低下的问题限制了实际应用的范围。XMASK算法针对MASK算法在重构项集真实支持度时在概率矩阵求逆过程中的指数级复杂度,提出了一种利用临阶概率矩阵间所存在的递推关系来简化运算过程,有效地提升了算法的运行效率。本文在XMASK算法改进的基础上,在算法在对扭曲数据集各组合的计数过程中利用关联规则挖掘中布尔数据集的特性,通过已知项求解未知项的方法消减项集计数过程所产生的系统开销,以达到对算法时间性能的进一步优化。改进算法在挖掘过程中对取值全为真的项集计数保存在一个动态的哈希链表中,在对n-项集的真实支持度进行重构时,只对取值全为真的项集在扭曲数据集中进行扫描计数,而其他组合的计数则利用哈希链表中存储的中间结果计算获得,从而减少了对扭曲数据集的访问次数,提高了算法运行的时间效率。理论分析说明在增加一定空间开销的条件下,改进算法的执行时间效率优于原MASK算法,而在挖掘规模较大的数据库时体现的更为明显。实验结果也表明改进算法相比于原MASK算法以及XMASK算法有着更良好的时间性能。
其他文献
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进
可逆水印技术是指水印被提取之后,原始数据能够完全恢复,主要应用于对图像的完整性和真实性要求高的领域,如法律仲裁、医学、军事等。随着三维建模技术的发展,网格水印技术受
随着信息科技的飞速发展,在信用卡欺诈监测、网络流量监控和在线金融交易等场景中产生了大量的数据流。这些数据流中蕴含着大量有价值的信息,为了获取这些信息,人们开展了大
人脸检测技术在人们日常生活中越来越受到关注,特别是在学术研究、国防等领域,每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术
随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技
近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数
随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起
随着人脸识别技术的日趋成熟,其商业化应用也愈加广泛。不过,随着该技术的不断应用,也出现了十分严重的安全问题。现在,几乎所有的人脸识别系统均无法甄别人脸的真假,也就是
随着互联网的高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络的高速发展带来了网络信息的爆炸式增长,而网络用户对
移动Ad Hoc网络的研究已成为网络领域中的重要研究方向,相关路由协议的设计和性能研究工作逐渐成为热点,一个能够对Ad Hoc网络路由协议进行全面性分析的性能评估方法显得越来