论文部分内容阅读
大数据时代的到来使得人们迫切希望从海量的数据中挖掘出潜在的规律和知识,来指导人们创造新的价值。大数据结合数据挖掘分析技术,已经在商业、医疗、能源、交通、安全和娱乐等领域产生了深刻的影响。然而,传统作用于原始数据之上的数据挖掘分析面临着一个重要的问题即数据的隐私问题。由于原始数据中通常包含有关个人或群体的敏感信息,这些敏感数据的泄露会给人们的声誉、财产和安全等带来严重的威胁。现有简单的数据处理方法无法满足隐私保护的需求,并且现有的法律法规已经制约了数据挖掘技术的应用和发展。因此,有必要从技术的角度出发,寻找可以同时解决隐私保护和知识发现的方法。通过结合相关的数据挖掘分析算法,本文分别针对面向属性和面向关系的两个层面研究隐私保护数据挖掘问题。社会实体本身的属性所包含的敏感信息保护构成了面向属性的隐私保护问题;由社会实体之间的相互作用关系所生成的网络拓扑结构成为隐私信息的另一来源,这种隐私信息的保护则构成了面向关系的隐私保护问题。本文将上述研究内容细分为四个研究点,主要贡献和创新点如下:(1)个性化隐私保护:现有频繁项集挖掘的敏感数据保护算法,并没有考虑不同商品或项的个性化隐私保护需求。而现实中,人们不会在意别人知道自己购买了日常用品,却对敏感商品比较在乎。基于商品的这种个性化隐私需求,提出了不同商品或项的个性化隐私问题,并基于随机响应技术对不同项的敏感数据实施不同水平的隐私保护。然后,给出方法从扰动后的数据中重构出项集在原始数据中的支持度。最后通过修改经典的Apriori算法从扰动后的数据中重现原始数据的频繁项集。这种方法在满足不同商品的个性化隐私保护需求的同时,可更好地重构出原始数据中的频繁项集。(2)频繁模式隐私保护:通常公司在共享数据之前希望隐藏掉数据中具有竞争优势的潜在知识,而针对关联规则分析,它们希望隐藏某些频繁模式,即“约束模式”。为解决此问题,首先提出了项冲突度的概念,并基于此设计了一种新的启发式数据清理算法。该算法在隐藏约束模式时,在所有事务中迭代地选择出具有最大项冲突度的项,并从其所在的事务中移除该项。算法迭代地更新所有项的冲突度并使用倒排文件索引来提升算法的查询速度。与相关算法对比,所提算法在隐藏约束模式的同时可以更少地隐藏合法模式,并减少对原始事务数据的修改。(3)分布式隐私保护:针对数据水平分割的分布式环境,研究了不同合作方协同构建共享数据挖掘模型的隐私保护问题。通过结合数据随机化方法和安全多方计算协议,提出了一种新的混合式隐私保护算法,在保护数据隐私的同时,实现了旋转无关数据挖掘结果准确性的零丢失。此外,为给参与方提供更高的隐私保护,针对随机正交变换技术给出了相对最大化隐私水平的策略,并在分布式环境下设计了一种效率更高的安全内积协议。最后,通过结合协同过滤推荐算法,给出了分布式隐私保护数据挖掘的具体实例。(4)面向关系的隐私保护:针对面向关系的社会网络发布中的隐私保护问题,对攻击者背景进行建模并提出了共同好友攻击模型。为预防此种攻击,提出了k-NMF匿名化隐私保护模型,并设计了两种原始网络的匿名化算法以使发布的网络满足k-NMF匿名化。由于算法在匿名化时考虑了网络的结构拓扑特性,实验结果证明所提算法在保护隐私的同时,可以有效地保留原有网络的结构特性。另外,为使发布的网络同时满足k-degree匿名化和k-NMF匿名化,提出了新的匿名化算法并实验验证了所提算法可以较好地保持原始网络的结构信息。上述前三个方面的工作主要解决了面向属性的隐私保护数据挖掘中的问题,从而在满足用户对隐私保护需求的条件下,更有效地减少了属性数据中的信息丢失。最后一个工作针对面向关系的隐私保护问题进行了隐私模型的建模,并设计了相应的隐私保护算法,在保护用户隐私信息的同时,有效地保留了原始网络的结构信息。最后,对本文工作的后续研究进行展望。