论文部分内容阅读
随着大数据时代的到来,各行各业都充斥着大量的数据。对数据进行加工处理,从中挖掘出有用的规则信息,对行业中的资源调配、服务改进,乃至于对某些行业的前进方向都具有重要的指导作用。作为数据挖掘中一项重要的技术,频繁项集挖掘近几年得到了充分的发展及应用,成为发现数据项之间关联规则中关键的一环。然而在数据技术不断应用的过程中,个人敏感信息也面临着前所未有的威胁。传统的6)匿名方法在拥有背景知识更加强大的攻击者面前,无法为用户的敏感信息提供足够的保护。2006年,微软科学家Dwork提出差分隐私保护模型,为这个问题提供了一个解决方案。差分隐私技术是利用随机噪声的方式,为用户的敏感数据提供保护。然而这种方案在保护过程中加入了噪声,对数据挖掘的有效性产生了较大的影响。为了在保护隐私不受侵犯的情况下,有效地提升挖掘结果的可用性,本文提出了一种新的基于差分隐私的频繁项集挖掘算法。新算法主要有数据集预处理和带噪频繁项集挖掘两个阶段。具体研究内容如下:(1)在预处理阶段,针对事务截断方法中导致频繁信息丢失的问题,提出了一种事务缩短策略。该策略实现数据集满足事务最大限制长度,降低算法敏感度的,同时避免了截断误差的产生。仿真实验证明,事务缩短策略有效地降低了算法的敏感度,避免了过大的噪声量。(2)在带噪频繁项集挖掘阶段,基于Apriori算法构建频繁项集挖掘模型。针对项集支持度中噪声过大时引起的问题,一方面使用双阈值的方法避免了传输误差的产生;另一方面通过支持度修正策略降低了算法结果中整体的噪音量。仿真实验证明,双阈值和支持度修正策略有效地提高了算法结果的可用性。(3)根据差分隐私的定义,证明了新算法满足差分隐私保护。与SmartTrunc算法的对比仿真实验证明:新算法避免了截断误差的产生并且输出结果中噪声支持度的相对误差减少了约1/3,运算时间相对较短。(4)针对新算法依然存在运算效率较低的情况,采用优化后的Eclat频繁项集挖掘模型替换原有的Apriori挖掘模型,避免了大量对数据集的无效访问。仿真实验证明,改进后的算法运算时间减少为原来的1/5,但存在一定程度的截断误差。该论文有图25幅,表8个,参考文献72篇