论文部分内容阅读
数据挖掘技术大行其道的当今,与之相伴的其他问题也日益凸显。特别在2011年,中国互联网爆出了用户信息泄露事件后,人们就开始更多的思考之前一直都被忽略的数据隐私问题。关联规则挖掘作为最受人们所青睐应用之一,其在实际中应用的非常多。与之相对应的,隐私保护研究工作也在这个技术上开展的最早,并且得到了很多的不错的成绩。本论文主要是以FP-TREE为算法处理基础,以隐私临界区间和关联因子为处理判断标准,对敏感关联规则进行隐私保护。整个处理框架分为了3个阶段,分别是:数据预备阶段、隐藏敏感信息阶段和重构数据集阶段。在数据预备阶段,把源数据集转化到FP-TREE上。在隐藏敏感信息阶段,提出的几种算法都是以FP-TREE为基础进行操作的,具体操作主要分为添加项集和减少项两种方式。敏感信息得到处理后,在重构数据集阶段对FP-TREE进行事务数据集重构。最后,随机的把非敏感项和纯敏感项添加到发布数据集中。本论文中的算法和以往算法最大的不同之处是,其着眼点不是频繁项集。本文算法的着眼点主要考虑的是不同关联规则之间存在的联系。本文全面分析了一个关联规则中,不同事务中不同的项发生了变化对其本身可能带来的变化和影响。同时,引入了隐私临界区间作为变化程度的量化标准。通过这样处理方式,可以做到隐私保护时对于非敏感信息丢失的可控制性,从而能更好的控制和减少由于隐藏动作所产生的副作用。最后,通过实验对比分析,本文中所提出的算法能较好的完成了对于敏感关联规则的隐私保护。