论文部分内容阅读
在当今这个信息爆炸的时代,随着信息的数字化处理程度的提高,从大量数据中挖掘有用信息的需求日益增加,从而大大推动了数据挖掘的发展。然而,任何事情都有其两面性,在数据挖掘领域也不例外,随之产生的就是信息安全和隐私保护的问题。
聚类是数据挖掘中的一个重要分支。本文主要的研究目的是在聚类挖掘中深入探讨隐私保护的有关问题,提出有效的聚类挖掘的隐私保护的技术和算法。
首先研究一种保护原始数据的聚类挖掘算法。该算法是在儿何数据转换方法的基础上,提出的基于二次反射的转换算法(DRDP算法)。DRDP不是对某一属性进行简单的加法运算,而是采用沿对称轴反射的方法,得到点的新坐标。对于DRDP算法可能存在的问题,本文也提出了相应的改进算法,即使用数据抽样的思想计算对称轴。实验表明,该算法是有效可行的,操作也比较简单。
本文又对垂直分布式数据库的聚类挖掘的隐私保护提出了新方法-聚类-反射-干扰-集中聚类方法(CRDC方法)。该方法的关键技术是利用各节点的聚类结果计算得到对称轴和添加干扰信息;并在聚类结果的正确性和隐私保护程度之间的平衡作了分析。实验表明,可在聚类结果的正确性和隐私保护程度之间达到一个合理的平衡。