论文部分内容阅读
随着硬件技术的迅猛发展以及网络的普及,很多行业都积累了海量的,以不同形式存储的客户和个体的私人数据资料,这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用。为了解决此类问题,学术界提出了大量基于隐私保护的数据挖掘算法。这些隐私保护数据挖掘的方法涉及数据挖掘、数据加密、信息隐藏等多个领域。
海量数据通常使用分布式的存储方法。由于在分布式数据上进行数据挖掘对于隐私保护要求越来越高,因而在分布式数据挖掘基础上提高隐私保护能力已成为数据挖掘领域重要的研究内容之一。目前在数据挖掘领域有很多研究成果,但对分布式隐私保护数据挖掘的研究还不成熟,在模型的可解释性、结果的准确率上还不能很好的满足实际应用的需要。
在北京大学数据库研究室与西门子中国研究院的合作项目“分布式隐私保护数据挖掘的关键技术研究”的支持下,本文深入研究了数据水平分布下的隐私保护分类算法,提出了基于ADTree的分布式隐私保护分类算法PPADTree,在此基础上设计并实现了客户离网分析系统,并做了大量的实验和分析,主要包括:
>提出了适用于水平分布数据的隐私保护分类算法PPADTreePPADTree(PrivacyPreservingAltematingDecisionTree)是一种适用于分布式数据的隐私保护分类算法。PPADTree由一个服务端和多个客户端组成,服务端和客户端都拥有同构的数据的元信息,服务端接收各客户端关于数据的统计信息以及分割信息后,选择最优分割,并将选取的最优分割发给各客户端,每个客户端根据新产生的分割以及预测值更新自己部分的权值,如此迭代多次。算法充分利用了ADTree可解释性高和数据挖掘效率好的优点,加上在服务端和客户端之间传送分布式数据的聚集值而非具体数据,很好的适应了水平分布下隐私保护分类的要求。
>研制了基于PPADTree的移动通信客户行为分析系统中国移动公司积累了大量的客户行为数据,各分公司要对这些客户行为做数据挖掘,可是训练数据珍贵而稀少,所以必须进行分布式数据挖掘,而客户行为数据涉及客户的隐私,因此在数据挖掘的过程中必须考虑隐私保护。PPADTree是一种水平分布的隐私保护数据挖掘方法,本文将其应用到客户离网分析系统中,用于解决由于客户离网导致市场份额减少、营销成本增加、收入降低的问题。客户离网分析系统通过对客户的行为运用隐私保护数据挖掘算法对客户的流失倾向进行评分,产生最可能流失客户的名单,进而通过其它手段对可能离网的客户进行挽留,最终达到提高挽留成功率、降低离网率、降低挽留服务成本、减少由于客户离网带来的收入损失的目标。
>在真实数据上验证算法的有效性和隐私保护能力本文从客户端数量、客户端传送的信息、最终建立模型的效果等不同角度,对比其他普通数据挖掘以及隐私保护数据挖掘算法,基于移动公司真实数据进行了大量的实验,实验证明,本文提出的隐私保护分类算法PPADTree在算法有效性、隐私保护能力、可解释性等方面相比传统算法有一定的优势。