论文部分内容阅读
近年来,信息处理技术和存储技术快速发展,使得相关机构可以收集大量的数据用于数据挖掘。在数据挖掘的过程中,可能需要多方数据所有者发布或共享其拥有的数据,然而,直接发布和共享原始数据会导致个人隐私信息的泄露。这种情况下,数据所有者陷入了一个困境:一方面,需要保护个人数据的隐私安全,另一方面,需要针对数据挖掘任务保证数据的可用性。为了解决这一难题,面向数据挖掘的隐私保护数据发布应运而生,并已成为一个非常活跃的研究领域。该领域主要研究如何发布不泄露隐私信息的数据,同时保证发布数据可用于数据挖掘。目前,针对不同的数据类型、不同的应用场景以及不同的攻击模型已经涌现出了大量的研究工作,其中,基于随机投影的数据扰动方法由于其实现简单并有严格的数学理论基础,具有很强的实用性和可靠性,但是,仍然存在一些有待解决的问题。本文主要研究面向数据挖掘的隐私数据发布和共享,针对随机投影数据扰动方法存在的问题以及不同数据发布场景的具体需求从如下几个方面展开研究工作:首先,针对投影矩阵泄露时传统随机投影数据扰动方法的隐私保护性能问题,提出一种基于l1最小化理论的数据重建方法,该方法通过获取投影矩阵重建稀疏的原始数据。首先,从理论上分析准确重建原始数据需满足的条件。然后,设计一种基于原始对偶内点法的数据重建算法,通过牛顿迭代实现稀疏数据的重建,指出在恶意模型中攻击者可以通过获取投影矩阵来准确重建稀疏的原始数据,导致原始数据隐私泄露。在人工和真实数据集上的实验结果表明,不需要任何原始数据样本,在已知投影矩阵的情况下,基于l1最小化理论的数据重建方法能够准确的重建稀疏的数据记录,传统的随机投影数据扰动方法在恶意模型中存在隐私泄露风险。其次,针对恶意攻击者重建原始数据导致的隐私泄露问题,提出一种实现差分隐私保护的噪声投影数据扰动方法。该方法通过在传统的随机投影数据扰动的基础上引入了噪声扰动来提高隐私保护水平。首先证明该噪声投影扰动方法满足差分隐私模型的定义,然后对扰动数据的可用性进行理论分析,说明该方法能够保护数据在欧几里德空间的相对位置关系。其次,设计一种噪声投影数据扰动算法以实现面向协同数据挖掘的差分隐私数据发布。最后,通过在人工和真实数据集上的实验分析表明:在已知投影矩阵的数据重建技术的攻击下,噪声投影数据扰动方法能够明显提高隐私保护水平,防止数据重建,并且能够保证扰动数据在基于近邻的数据挖掘方法中的数据可用性。再次,针对大规模高维稠密数据隐私保护计算量大的问题,提出一种基于全域散列函数的稀疏投影数据扰动方法,该方法利用投影矩阵的稀疏性降低数据扰动的计算量。首先构造一种随投影维数的变化,投影矩阵的稀疏度自适应变化的稀疏随机投影数据扰动,然后,具体设计一种根据用户给定的数据失真度阈值,进行稀疏投影数据扰动的算法。其次,从理论上对数据安全性和数据可用性进行分析。最后,通过在人工数据集和真实数据集上的实验分析说明:稀疏投影数据扰动方法能够保证数据的安全性和可用性,同时,与传统的随机投影扰动方法相比,计算量明显降低。最后,针对分布式数据流的异步实时更新问题,提出一种异步实时数据扰动方法。该方法首先构建面向分布式数据流挖掘的隐私保护数据发布模型,然后设计一种基于随机投影的满足异步实时更新的数据扰动,并且从理论上分析该方法满足数据异步实时更新。其次,基于构建的模型和异步实时数据扰动方法,设计一种隐私保护数据发布、传输和整合的数据收集机制,以及一种实现异步数据流扰动的具体算法。之后,基于以上研究,具体针对轨迹数据流提出一种隐私保护的相似轨迹挖掘方法,包括一种基于异步数据流扰动方法的用户端的轨迹数据转换算法,以及一种利用扰动数据进行相似轨迹挖掘的算法,并且从理论上对数据安全性和可用性进行分析。最后,通过在真实数据集和人工数据集上的实验分析说明:用户端数据转换算法的执行时间短,能够满足实时更新要求。服务端相似轨迹挖掘算法的执行时间明显低于同类算法,并且挖掘结果的准确度也与同类算法相当,说明算法适用于数据流并且具有很好的数据可用性。