论文部分内容阅读
近年来随着计算机技术、存储技术和互联网络的迅速发展,各个行业已经积累了海量的数据。人们迫切的希望能从这些海量数据中发现有用的信息来指导相应的决策制定。数据挖掘技术作为一种强大的数据分析手段,可以从数据中提取潜在的知识(模型或规则)。但是传统的数据挖掘技术中,由于原始数据在挖掘时并没有进行任何的处理,导致在发现知识的同时,会不可避免的侵犯到隐私敏感数据,因此敏感数据的隐私保护问题得到越来越多的关注。目前已有很多工作研究如何在保护数据隐私的前提下提高数据挖掘结果的准确性。隐私保护的数据挖掘致力于提供可用有效的方法,这些方法可以计算出一个较好的数据挖掘算法的结果,又不暴露隐私信息(至少是一些敏感信息)。现存的隐私保护的数据挖掘涉及到的数据挖掘领域主要有关联规则、分类和聚类。已有的隐私保护的数据挖掘工作主要集中在关联规则和分类算法上,而隐私保护的聚类算法研究则相对较少。本文主要研究基于隐私保护的聚类方面的问题,主要内容如下:研究了针对数据水平分割的分布式系统下的隐私保护问题,并在此系统下设计了一种新的向量内积安全计算协议和矩阵乘积安全计算协议。通过结合多方安全计算协议和随机正交矩阵变换扰乱方法,提出了一种新的混合式隐私保护算法。理论分析和实验结果表明,该算法可以在保护数据隐私的同时,实现数据挖掘结果准确性的零丢失。针对数据集中分布的集中式系统下的隐私保护问题,提出了一种基于谱图理论的隐私保护聚类算法。对谱聚类的原理-谱图理论进行研究,将之推广到集中式数据分布环境中的数据发布问题上。由于在谱图理论中,数据的聚类问题可以转换为图的划分问题,并且通过图的谱即特征向量,给出图划分问题的近似最优解。所以,将原始数据进行预处理后,求解拉普拉斯矩阵的特征向量矩阵,并将之发布给第三方,由第三方进行聚类挖掘。通过试验证明,该算法可以在保护数据隐私的前提下,保证聚类效果的有效性。此外,为了有效解决谱聚类中规模参数的选择问题,我们提出了一种基于邻居排序的自适应谱聚类算法。这种算法可以自动的计算规模参数,并使点之间的相似度随着距离的增加下降的更快。