隐私保护分类方法设计及其在移动通信客户行为分析中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：n464j7428bh

【摘要】

：

随着硬件技术的迅猛发展以及网络的普及，很多行业都积累了海量的，以不同形式存储的客户和个体的私人数据资料，这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用

【作者】

：

赵翔宇

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

【关键词】

：

私有数据隐私保护数据挖掘挖掘算法数据加密信息隐藏移动通信客户行为分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着硬件技术的迅猛发展以及网络的普及，很多行业都积累了海量的，以不同形式存储的客户和个体的私人数据资料，这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用。为了解决此类问题，学术界提出了大量基于隐私保护的数据挖掘算法。这些隐私保护数据挖掘的方法涉及数据挖掘、数据加密、信息隐藏等多个领域。海量数据通常使用分布式的存储方法。由于在分布式数据上进行数据挖掘对于隐私保护要求越来越高，因而在分布式数据挖掘基础上提高隐私保护能力已成为数据挖掘领域重要的研究内容之一。目前在数据挖掘领域有很多研究成果，但对分布式隐私保护数据挖掘的研究还不成熟，在模型的可解释性、结果的准确率上还不能很好的满足实际应用的需要。在北京大学数据库研究室与西门子中国研究院的合作项目“分布式隐私保护数据挖掘的关键技术研究”的支持下，本文深入研究了数据水平分布下的隐私保护分类算法，提出了基于ADTree的分布式隐私保护分类算法PPADTree，在此基础上设计并实现了客户离网分析系统，并做了大量的实验和分析，主要包括：＞提出了适用于水平分布数据的隐私保护分类算法PPADTreePPADTree(PrivacyPreservingAltematingDecisionTree)是一种适用于分布式数据的隐私保护分类算法。PPADTree由一个服务端和多个客户端组成，服务端和客户端都拥有同构的数据的元信息，服务端接收各客户端关于数据的统计信息以及分割信息后，选择最优分割，并将选取的最优分割发给各客户端，每个客户端根据新产生的分割以及预测值更新自己部分的权值，如此迭代多次。算法充分利用了ADTree可解释性高和数据挖掘效率好的优点，加上在服务端和客户端之间传送分布式数据的聚集值而非具体数据，很好的适应了水平分布下隐私保护分类的要求。＞研制了基于PPADTree的移动通信客户行为分析系统中国移动公司积累了大量的客户行为数据，各分公司要对这些客户行为做数据挖掘，可是训练数据珍贵而稀少，所以必须进行分布式数据挖掘，而客户行为数据涉及客户的隐私，因此在数据挖掘的过程中必须考虑隐私保护。PPADTree是一种水平分布的隐私保护数据挖掘方法，本文将其应用到客户离网分析系统中，用于解决由于客户离网导致市场份额减少、营销成本增加、收入降低的问题。客户离网分析系统通过对客户的行为运用隐私保护数据挖掘算法对客户的流失倾向进行评分，产生最可能流失客户的名单，进而通过其它手段对可能离网的客户进行挽留，最终达到提高挽留成功率、降低离网率、降低挽留服务成本、减少由于客户离网带来的收入损失的目标。＞在真实数据上验证算法的有效性和隐私保护能力本文从客户端数量、客户端传送的信息、最终建立模型的效果等不同角度，对比其他普通数据挖掘以及隐私保护数据挖掘算法，基于移动公司真实数据进行了大量的实验，实验证明，本文提出的隐私保护分类算法PPADTree在算法有效性、隐私保护能力、可解释性等方面相比传统算法有一定的优势。

其他文献

蛋白质基因组学新基因发现与验证策略研究

自基因组测序技术诞生起，基因组学和转录组学就一直是基因组注释的主导力量。使用这两个组学的注释技术，大肠杆菌、酵母等模式生物的基因组得到了注释。基于质谱技术的蛋白组学

学位

蛋白质基因组学全局假发现率新肽段鉴定

GPU加速的蚁群算法及在HP模型中的应用

生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。从信息学角度来看，生物分子是生物信息的载体，蛋白质序列决定蛋白质结构，而蛋白质结构又

学位

图形处理器蚁群算法HP模型蛋白质折叠生物信息学

非均匀节点与稀疏网格FFT的算法及实现

快速傅里叶变换（Fast Fourier Transform，FFT）是一种应用十分广泛的数值算法。在对高维离散傅立叶变换的研究过程中，人们发现，随着维数的升高，快速傅里叶变换算法的时间复杂度与维

学位

傅立叶变换非均匀节点六边形网格稀疏网格时间复杂度

科学计算网格中远程资源访问和作业级API的关键技术研究

随着计算机科学与网络技术的飞速发展，众多科学研究活动越来越依赖计算机强大的计算和存储能力。科学计算成为继理论和实验之后的第三种科学研究手段。许多科学研究领域的计算

学位

科学计算网格远程资源访问作业级API逻辑资源物理资源Java

基于感兴趣区域的图像检索和聚类方法研究与实现

随着计算机技术、多媒体技术以及网络技术的飞速发展，越来越多的图像出现在人们的日常生活中。如何有效地从浩瀚的图像数据中检索出用户需要的图像就成了一个亟待解决的问题，基

学位

感兴趣区域图像检索图像数据用户需要特征提取图像特征

基于策略模型的访问控制系统的设计与实现

随着计算机应用广泛地深入到各个领域，应用系统的访问控制是一个相当重要的研究问题。在数字资源日益增多的背景下，权限控制同时被用来保证数字资源的安全和合理访问。数字图书

学位

数字图书馆动态访问控制形式化语义DACM模型PRL描述语言系统设计

MySQL存储过程的PL/SQL兼容性研究与实现

随着计算机技术的飞速发展和广泛应用，海量信息的开放与共享日益增强，信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所，保证和加强其安全性是迫切需要解决的研究

学位

数据库应用程序存储过程SQL语言PL/SQLMySQL开放源码兼容性

经济学领域本体的构建及其可视化

人类一直都在进行对知识的探索，并把知识通过不同形式在社会中进行传播。网络教学是人们进行传播知识的一种方式。现行网络远程教育存在着资源标准不统一、共享难度大、个性化

学位

西方经济学本体构建可视化技术语义网络网络教学

863孵化器测试服务协同平台的设计与实现

863软件专业孵化器(简称：863孵化器)是科技部863计划建设的面向软件企业的技术服务和企业孵化机构，软件测试服务平台是大多数863孵化器技术服务系统中的重要组成部分。目前大部

学位

863孵化器测试协同平台SOA架构Web服务流程引擎

MANET中位置依赖缓存管理研究

位置依赖的信息服务(Location Dependent Information Services，简称LDISs)专指一类与位置相关的信息服务，其用户所提出的请求将会随着空间的变化而得到不同的查询结果。在无线

学位

位置依赖信息服务移动自组网协同缓存管理运动预测模型节能策略

隐私保护分类方法设计及其在移动通信客户行为分析中的应用

与本文相关的学术论文