论文部分内容阅读
由于现代计算机硬件技术、互联网技术以及多媒体信息技术的高速发展,人们所拥有的数据量已经达到了前所未有的规模,而数据挖掘技术的出现使得对大量的库存数据进行有针对性地处理和分析以得到隐藏在其中的知识成为可能。然而在随着数据挖掘技术不断的发展和延伸,数据挖掘应用可能带来的隐私信息泄露的风险与日俱增,因此基于隐私保护条件下的数据挖掘已成为研究的热点领域。本文首先对基于隐私保护的数据挖掘技术的基本概念、国内外研究现状以及相关的算法进行了综述,而后选择基于关联规则挖掘的隐私保护数据挖掘算法作为研究的重点。在关联规则挖掘算法中主要研究了基于随机扰动的MASK算法,此算法在兼顾隐私保持度和挖掘结果精确度上有着良好的性能,但其执行时间效率低下的问题限制了实际应用的范围。XMASK算法针对MASK算法在重构项集真实支持度时在概率矩阵求逆过程中的指数级复杂度,提出了一种利用临阶概率矩阵间所存在的递推关系来简化运算过程,有效地提升了算法的运行效率。本文在XMASK算法改进的基础上,在算法在对扭曲数据集各组合的计数过程中利用关联规则挖掘中布尔数据集的特性,通过已知项求解未知项的方法消减项集计数过程所产生的系统开销,以达到对算法时间性能的进一步优化。改进算法在挖掘过程中对取值全为真的项集计数保存在一个动态的哈希链表中,在对n-项集的真实支持度进行重构时,只对取值全为真的项集在扭曲数据集中进行扫描计数,而其他组合的计数则利用哈希链表中存储的中间结果计算获得,从而减少了对扭曲数据集的访问次数,提高了算法运行的时间效率。理论分析说明在增加一定空间开销的条件下,改进算法的执行时间效率优于原MASK算法,而在挖掘规模较大的数据库时体现的更为明显。实验结果也表明改进算法相比于原MASK算法以及XMASK算法有着更良好的时间性能。