基于隐私保护的决策树分类模型的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jzsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘被广泛应用于多个领域,尤其是在如银行、电信、保险、交通、零售等商业领域。但数据挖掘也会带来一些社会问题,其中最敏感的要属隐私保护问题。因此,有必要研究如何在数据挖掘中保护信息隐私,并且建立基于隐私保护的挖掘模型,以保证在挖掘过程中敏感信息的安全。 本文主要探讨基于隐私保护的决策树分类模型的构造问题,其中决策树的生成算法采用ID3算法。该问题具体定义为:有两个不同站点,站点A和站点B,欲基于数据集共同构造决策树;站点A和站点B各自拥有数据集的一部分;在构造决策树的同时,必须保证站点A和站点B均不会泄露自己数据的具体字段信息。 根据不同的分布情况,数据集可分为:集中式数据集、水平分布数据集和垂直分布数据集。本文对上述三种数据集的保护隐私的决策树构造方法进行了描述与分析,并分别讨论了随机化方法和安全多方计算方法在保护隐私的决策树生成算法中的应用。 对于集中式数据集,应用随机化方法实现建树过程中的隐私保护。首先,采用服从均匀分布或高斯分布的随机变量对原始数据进行变换。其次,应用一种基于贝叶斯理论的重构方法对数据进行重构。最后,在重构的数据上构造决策树。对于数据集水平分布和垂直分布的情况,应用安全多方计算协议实现建树过程中的隐私保护,即参与计算的各站点分别输入保密信息,运用安全计算协议得到随机分享值。 针对垂直分布的数据集,本文提出了一种保护隐私的决策树构造方法PVID3算法。该方法与前面提到的基于垂直分布数据的保护隐私的决策树构造方法的不同之处如下: ①前者应用的安全协议为标量积协议;PVID3应用的安全协议为安全计算交集协议。 ②前者需要引入第三方服务器,且假设第三方服务器为半诚信;PVID3无需第三方服务器的参与。 ③前者要求两方站点的数据集均包含类标号属性;PVID3只要求一方站点包含类标号属性信息。 本文给出了基于PVID3算法的决策树分类模型的实现过程,并且对算法的传输开销和计算复杂度进行了分析。
其他文献
在进程演算领域,语义等价关系研究一直是作为基础性研究而从未间断过。其目标是为了描述规范与实现之间的相等关系,或者不同实现之间的相等关系。传统上,等价关系可以从测试等价
近年来,无线传感器网络技术得到迅速发展,并在军事、医疗、教育、环保、等多个领域得到越来越广泛的应用。无线传感器网络是以传感器技术,无线通信技术和信息处理技术为基础,以收
本文主要研究分划逻辑在线性序结构上的表达能力及其相关性质,主要创造性工作由以下两部分组成:(1) 将确定型自动机和分划逻辑各类型的范式集建立起了联系,类似于的Hintikka 公
供应链管理是企业在无法预测的、持续的、快速变化的竞争环境中生存、发展并扩大竞争优势的经营管理和生产组织方式,能在企业间的资源共享和信息集成的基础上,通过对各部分资源
贝叶斯网络(Bayesian Network,BN)是Pearl提出的一种基于概率论和图论的不确定知识表示模型。它具有清晰语义的网络结构;它揭示领域对象的内在结构,是复杂全概率分布的紧凑表示
数字签名包括两个方面的安全性:一是签名方案抵抗密码分析的安全性,通常通过选用数学上一些著名的困难问题,来保证数字签名方案的安全性。另一个安全性是指签名私钥的安全性。签
本文主要研究代理签名及其应用。通过对代理签名方案进行分析与改进,主要介绍代理签名的基本概念、扩展方案、性质等,将其进行分类,分析了代理签名具体方案,以及对各代理签名方
数据挖掘是从大规模的数据中抽取非平凡的、隐含的、未知的、有潜在使用价值的信息的技术.随着信息技术的不断发展,各行业的数据规模也不断庞大,与此同时,数据挖掘技术不断成
随着信息技术的飞速发展,ADSL技术逐渐成为当今最重要的宽带接入技术。USB接口ADSL调制解调器将USB协议和ADSL技术结合在一起,满足了使用者的不同需求。Linux是近年来向家用桌
学位