论文部分内容阅读
随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。如何保护私有信息或敏感信息在挖掘过程中不被泄露,已经成为数据挖掘研究中的一个很有意义的研究课题。
聚类分析是一种重要的人类行为,他广泛应用在模式识别,数据分析,图像处理以及市场研究中。通过聚类,人能够识别密集的和稀疏的区域,进而发现全局的分布模式,以及数据属性之间的有趣的相互关系。
本文主要关注于隐私保护聚类挖掘的研究,提出了一种新的隐私保护数据挖掘算法PPH(Priracy Preserving Hierarchy),在PPH的基础上设计并实现了一个隐私保护层次聚类子系统,并且将该系统应用于移动通信客户行为分析中,为企业决策提供依据。
PPH用于在数据水平分布于多个站点、不能访问原始数据的情况下,多个站点协同计算基于全局数据的聚类结果,它达到的结果是多个站点可以进行合作,使得挖掘出的有用结果是基于所有站点数据的并集的,并且在挖掘的过程中,每个站点的数据信息都不会被其他站点窃取到,可以有效保护每个站点的数据安全。它借鉴了层次聚类算法BIRCH的思想,在聚类的划分中采用聚类特征(CF)和聚类特征树(CF树)的概念。PPH的工作分成两个阶段:阶段一中,每个参与协同计算的站点都对自己的数据进行一个简单聚类,为下一步的工作做必要的准备,这一步中每个站点会根据自己的数据建立一棵本地的CF树;阶段二中,每个站点都保持一棵全局的CF树,然后各个站点依次向这棵树中插入自己的多条数据及相应统计信息。若站点A插入数据,则它会向其他站点发布自己插入了某些数据以及这些数据的统计信息和插入路径等,供其他站点更新自己的全局树。算法重复这个过程,直到所有数据全部被插入到树中,此时聚类过程结束,每个站点全局树中的叶子节点即自己单独站点数据基于全局的一个简单聚类。由于算法对数据集合只进行两遍扫描,对对象数目有很好的线性伸缩性。文中对采用该算法得到的聚类结果进行了分析。分析结果显示,PPH在保密性、规则效能、算法复杂性和扩展性方面都有很不错的表现。
隐私保护层次聚类子系统是以PPH算法为核心设计的一个图形化系统,它是构成北京大学数据库教研室研发的数据挖掘与分析系统BusinessMiner的一个重要部分。隐私保护层次聚类子系统封装了一个用户界面,使得可以在图形中对算法各项参数进行设置,并且以三维图表的形式对聚类结果进行了展示,使得用户可以对聚类结果有个直观的感觉。它应用于移动通信公司的客户细分功能中,使得公司对圈定的目标用户进一步划分,并针对不同客户群制定相应的营销方案,可以极大的提高客户响应度和满意度。