论文部分内容阅读
近年来,数据流作为一种普遍存在的数据形式,吸引了越来越多数据挖掘研究者的关注,快速有效地针对数据流的一遍扫描式数据挖掘算法给人们提供日渐丰富的有价值信息,帮助提供决策支持,然而,数据流挖掘技术的飞速发展,也不可避免的给数据隐私和信息安全带来了威胁。敏感信息有时可能就是原始数据或数据挖掘所发现的知识本身,或者可能通过数据挖掘知识中的非敏感信息被推理得到。面向信息共享的数据流隐私保护方法研究,不仅可以在数据流环境下,实现对敏感信息的保护,消除信息拥有者共享信息时的担忧,从而营造更加安全、开放的信息共享环境;而且在保护敏感信息的同时,充分考虑对非敏感信息完整性的影响,最大程度的降低隐私保护方法给非敏感信息所带来的信息损失,从而使得被共享的信息保持较高的价值及有用性。本文立足于实现数据流环境下安全的信息共享,在保证共享信息高可用性的前提下,对原始数据流以及关联规则挖掘知识的隐私保护技术进行更加细致有效的研究:首先,针对传统的k-匿名方法无法表现数据流的特征以及无法动态解决数据流共享时所存在的链接攻击问题,提出自上而下具体化树结构来完成多数据类型的准标识符属性的泛化,通过树的分支及剪枝动态实现数据流的k-匿名保护;同时,针对数据流匿名保护往往伴随较高信息损失的问题,引入数据的分布密度以及延迟共享两个限制参数,并以此来选择满足k-匿名且产生信息损失最小的树节点进行共享;在此基础上,结合滑动窗口技术,提出数据流k-匿名保护算法(KIDS);最后,通过实验表明:与传统的k-匿名方法相比,KIDS算法在匿名数据流时不仅所产生的时间代价更小,而且KIDS在不同的k参数和不同的数据量下所产生的信息损失也更小,能够很好的保持共享原始数据流的高可用性。其次,针对静态数据的敏感规则隐藏方法应用于数据流时无法保持敏感规则安全性的问题,提出一种基于改进项头表的频繁模式树(IMFP-Tree),并以此为基础,提出面向数据流的敏感关联规则隐藏算法(HSRDS)。基于改进的频繁项头表来解决传统频繁模式树(FP-Tree)需要不断统计项的支持度计数而不适用于数据流的问题,并增加节点域ListTi来解决传统频繁模式树因无法表示交易数据与项的包含关系,而很难快速确定敏感交易的问题;另外,定义了两个信息损失度量阈值来选择被清洗的数据项,解决数据清洗技术带来的高信息损失问题;最后,通过实验表明:IMFP-Tree相较于传统的频繁模式树FP-Tree可以更快的完成数据流清洗,并且,与算法Algo2a和SWA相比,算法HSRDS会产生更小的负面效应,能够有效的保持敏感规则隐藏与数据有用性之间的平衡。再次,针对数据流共享时,数据清洗方法实现敏感规则隐藏后,被隐藏的敏感规则仍然面临隔离攻击问题,提出了一种被隐藏敏感规则的k-匿名保护方法(SRA),完成对敏感规则的双重保护;同时,针对现有的规则匿名方法需要二次清洗数据不适用数据流的问题,结合了时间滑动窗口技术,采用追加交易的流数据处理方式;并且,提出对数据项采用素数编码的方法,进一步提高算法效率、降低空间复杂度;针对SRA算法在k值偏高时产生过高信息损失的问题,提出改进的敏感规则k-匿名算法(ASRA);最后,通过实验表明:与算法ARH相比,算法SRA和ASRA产生更小的时间代价以及更低的信息损失,当数据量增大时尤其如此。同时,算法ASRA相比于SRA产生的信息损失更低,能够更好地保证挖掘结果的高有用性。最后,针对数据流环境下被共享的关联规则间所存在的相关性易对敏感规则造成推理攻击威胁,基于规则净化的思路,提出一种快速有效的、最小化信息损失的敏感规则推理攻击阻塞算法(BIA)。由于现有的频繁模式推理通道不足以定义关联规则的所有推理攻击,通过分析关联规则的推理特征,定义了四种可能存在的敏感规则的推理攻击渠道:分解式推理攻击、聚合式推理攻击、传递式推理攻击、链式推理攻击;并且,针对基于频繁模式的推理攻击阻塞方法会对非敏感规则产生较高的信息损失问题,提出基于关联规则的推理攻击渠道的阻塞方法;最后,通过实验表明:算法BIA不仅能更加全面的阻塞敏感规则的推理攻击渠道,比算法DSA和BINFCH更适合数据流环境,并且产生更低的敏感规则的暴露率以及非敏感规则的信息损失。