论文部分内容阅读
数据挖掘技术基于海量数据抽取出新颖、潜在有用的知识,目前已经成为一种有效的分析决策手段,在企事业中得到广泛应用。与此同时,海量数据中涉及大量个人隐私或机构机密,数据挖掘技术可能对隐私和信息安全造成极大威胁。因此,面向隐私保护的数据挖掘应运而生,其主要涉及面向源数据的隐私数据保护和挖掘结果中敏感知识的保护,成为近年来数据库研究领域的一个新兴研究方向。
敏感关联规则保护的研究,作为面向隐私保护数据挖掘研究的重要方向之一,近年来受到学术界的广泛关注。目前的研究主要有数据清洗和知识清洗两种保护方法,两者主要区别为,数据清洗方法根据保护要求直接对源数据进行修改,而知识清洗方法先对项集格进行转化,然后反向生成新数据。数据清洗的方法由于需要扫描源数据库会产生较高的时间代价和I/O操作,而知识清洗的方法克服了这些缺点。本文采用了知识清洗保护方法的体系架构,在分析关联规则挖掘过程和特点的基础上,提出了基于频繁项约束的敏感关联规则保护方法MinSEA(Minimum Side Effect Algorithm),从需要保护的敏感关联规则入手,通过修改相关的频繁项集隐藏敏感关联规则,然后由项集格自动生成数据集。