论文部分内容阅读
随着电子信息技术的迅猛发展,人们获取并存储数据的成本显著降低,处理数据的能力得到了极大的提升。数据挖掘作为一种能够有效地挖掘数据中有用信息的技术手段,在近几年得到了广泛的研究和应用。其中,旨在发现高价值模式的频繁项集挖掘及其衍生技术在大规模数据集的知识挖掘任务中扮演着越来越重要的角色。然而,敏感的高价值项集在数据集公开或共享的过程中面临着被泄露的风险。因此,如何在数据的使用者发生变化时保护敏感项集的隐私安全,已经成为一个亟待解决的重要研究课题。近年来,学者们基于不同的理论和技术提出了各种面向高价值项集挖掘的隐私保护方法。但这些方法在完成隐藏敏感频繁项集或高效用项集任务的同时,都对数据集本身所具有的实用性造成了不同程度的损害,包括重要信息的丢失和错误信息的产生。因而,尽可能地在对数据集实施隐私保护策略的过程中保留数据实用性是该课题的另一个侧重点。目前,对于这个已证明为NP难的问题,已提出的解决方法都无法很好地将数据实用性损失降低至一个较理想的水平。为此,针对频繁项集挖掘及其衍生的高效用项集挖掘中存在的隐私泄露问题,论文分别提出了两类新的模型:基于数据集重构的频繁项集隐私保护模型和基于整数线性规划的高效用项集隐私保护模型。前者采用了重新构建数据集的思想。对原始数据集挖掘结果中的敏感信息进行剔除后,再基于余下的非敏感频繁项集利用反向频繁项集挖掘技术进行数据集重构。最后通过扩展数据集来完成隐藏敏感频繁项集的任务。由于对机密信息进行了预处理,新数据集中将不再包含任何敏感项集。同时,重构算法的特性也保证了数据实用性损失的最小化。后者则将整个隐藏敏感高效用项集以及最小化数据实用性损失的过程构建为一个约束满足问题,并将其映射为等价的整数线性规划问题后进行求解,再根据问题的解对原始数据集进行扰动。通过借助两种辅助表结构,该模型仅需扫描数据集一次即可快速建立约束满足问题模型,大幅优化了模型运算时间。并且,约束满足问题中项集的有效性得到了保证,从而避免了大量的由于项集效用失效造成的信息丢失,尽可能地保留了数据实用性。此外,论文中进行了大量的基于真实数据集的仿真对比实验,以验证所提出的两类模型的有效性和优越性。