分布式隐私保护数据挖掘

来源 :西江文艺·下半月 | 被引量 : 0次 | 上传用户:xzljx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】:随着计算机技术、网络连接性的迅速发展,磁盘存储空间日益增加,包含个人信息的数据收集的种类和数量呈指数增长。为了进行数据挖掘,数据所有者需要发布这些包含个人信息的数据。然而,对个人隐私的关注阻碍了个人数据的任意发布。因此,发布个人数据的同时不泄露数据中的敏感信息已经成为了一个普遍的问题。
  【关键词】:隐私保护数据挖掘;分布式;水平划分;垂直划分
  1.分布式隐私保护
  分布式隐私保护:当应用环境复杂化,存在两个或两个以上的原始数据提供方的数量时,称为分布式数据分布环境。带有独立挖掘方的两方分布式环境如图 1 (b)所示,原始数据提供方 A 和原始数据提供方 B 为部分原始数据的持有者,双方提交数据至挖掘方完成整体数据的挖掘工作。分布式环境下亦可由多个数据提供方之间自行协同承担挖掘工作,即环境中可以不存在独立的数据挖掘方,如图 1 (c),原始数据提供方 A和原始数据提供方 B 通过可信第三方(非必须),约定通信和计算协议后,双方交互完成挖掘工作。分布式数据挖掘环境中又以数据记录的不同分布状态,分为水平分布和垂直分布。若数据记录的各记录条目分布于不同节点时,称为水平分布;反之,若数据记录的各属性分布于不同节点时,则称为垂直分布。可以看出,数据分布特征仅针对环境中原始数据的分布特性,与其他单元的分布情况无关,如可信第三方或挖掘方的分布情况。另外,在一些分布式环境中,还定义了全分布式环境 Fully-DistributedEnvironment,主要指节点数量
  远大于每个节点持有数据记录的数量。
  图1 数据分布类型
  不同的数据分布特征需要采用相适应的隐私保护方法,其中,在集中式环境下,主要基于数据扰乱技术实现数据挖掘的隐私保护方法,分布式环境中,考虑到多方参与时安全问题的复杂性,以及参与方相互之间的不信任性,以加密机制为主要隐私保护手段,实现高安全度的隐私保护方法。
  在分布环境下,数据分布有两种情况:数据垂直分布和数据水平分布
  ●数据的垂直分布
  是指数据按照属性值的不同分布在不同的站点,每个站点共享标签属性,并且拥有自己的部分属性。在进行数据挖掘时,每个站点只知道对方站点的属性名称,而对方站点的属性值却并不知道。例如某地银行希望和电信公司共同进行数据挖掘,他们各自的数据库中拥有相同的人的不同数据。银行拥有客户A的工资!存款!贷款情况等等,而电信公司拥有客户A的通信消费记录。工作单位等数据"这样的数据分布即为数据垂直分布"。
  ●数据的水平分布
  是指数据按照记录的不同而分布于不同的站点,每个站点拥有不同的记录,而每条记录拥有相同的属性名称"例如某地农业银行和建设银行拥有一群不同用户的相同属性和类的数据,如工资!存款!贷款情况等等,他们希望共同进行数据挖掘,这样的数据分布情况即为数据水平分布"。分布式数据的隐私保护挖掘算法,根据数据分布情况的不同,采取的策略也不相同,下面我们会对垂直分布和水平分布的数据所采用的方法进行分类介绍。
  2. 分布式隐私保护数据挖掘
  在大部分情况下,分布式环境下的隱私保护的目标是:在不牺牲多方的数据隐私性的前提下,允许数据挖掘者在全部的数据上进行聚类统计,并产生有价值的统计结果供自己再企业发展中产生有益的决策。因此,参与方会希望多方相互合作去产生有利的统计分析结果,但是很多情况下又不敢完全相信对方。因此,数据集被水平分割或者垂直分割到多个云端。在水平分割的数据集合总,实体的数据记录被分在多个实体方存储。在垂直分割中,实体的每条记录通常含有多个相同的属性,一个数据集被按照属性分在多个云端节点。这两种分割方法都给分布式隐私保护数据挖掘带来了新的挑战。
  分布式隐私保护数据挖掘问题与密码学有很大的关系:多方参与者之间的安全计算。密码学的常见方法是通过多个参与者提供不同的输入,参与者不了解别人的输入,通过一个共同的函数来产生最后的聚类结果。例如:在两个参与者的情况下,Alice和Bob分布输入x和y,这时两个人都要去计算公式f(x,y),但双方都不希望自己的输入泄露给对方。这种情况,可以扩展到k个参与者,每个参与者有一个输入参数,最后需要计算h(x1,…xk),同样参与者不希望其他的人知道自己的输入。基于这种情况,产生了很多的数据挖掘算法如:标量积协议运算(ScalarProduct)、安全求并集运算(SecureSetUnion)、安全求交集大小运算(SecureSizeofSetIntersection)安全求和运算(SecureSum)。要计算相关的公式,必须设计出相关的协议使得多放的输入参数集合起来但并不损害多方的隐私。通常情况下,所设计的协议的健壮性与多方的信任程度有关,即一方与另一方的分享程度有密切的关系。因为协议通常是根据各种不同程度的攻击行为设计的。这里我们主要提出两种攻击模型:
  ●半诚实环境
  所有单元均遵从协议进行操作,单元间互通信息(中间过程数据及自身的原始数据)以试图分析出其他单元持有的原始数据。
  ●恶意环境
  存在恶意单元,可违反协议规则,企图破坏操作流程或从中获取正常节点的数据信息。
  半诚实环境又称为半可信环境(Semi-Honest),是分布式计算中讨论较多的一个假设环境,半诚实环境中可能存在多个共谋节点,共享过程数据信息,以寻求发现其他节点的原始数据,该类攻击也被称为collusionattack,即共谋攻击。所有环境中,恶意环境(Malicious)对计算模型的安全隐私要求最高,除了要抵御上述环境中可能存在的攻击威胁外,还要求计算模型同时具备对数据/协议篡改、数据窃听、重放攻击等各类恶意攻击的抵抗力。
  5. 总结
  本文,我对分布式隐私保护、分布式隐私保护数据挖掘内容做了具体的介绍。并根据具体事例分别对数据垂直划分和水平划分两种情况所采用的具体算法做了分类介绍,这对研究者进一步的研究很重要的意义,只有在充分了解前人已做工作的基础上多做总结,才能在这个领域提出更有效的方法。
其他文献
【摘要】:美国的全国义务教育共十三年: 四年高中+两年初中+六年小学+一年幼稚园. 和义务教育相配套, 各市,洲政府还提供校车服务.美国校车诞生阶段从1886年到1939年,标准化阶段从1939到 20世纪70年代,稳步成长阶段从20世纪80年代年至今。美国校车已有120多年的历史,建立起了非常完备的运行体制。安全是美国校车跨越百年时间长河的恒定准则。其极高的安全保障措施值得我们国家借鉴和学习。 
期刊
【摘要】:适应中国特色军事变革的快速发展,必须提高创新发展中国先进军事文化的积极性、主动性和彻底性。解放思想,实事求是。继承我党我军优秀思想文化成果,汲取外军思想文化精华,探索发展中国先进军事文化的新途径,构建与完成多样化军事任务相适应的先进军事文化。  【关键词】:先进军事文化;思考  中国特色军事变革步伐不断加快,要求我们必须提高创新发展中国先进军事文化的积极性、主动性和彻底性,形成发展中国先
期刊
【摘要】:企业秘书是在企业机关的日常事务中起着主持管理的作用,目的是为领导和领导机关的工作提供便利,让领导决策工作能够快速高效的进行,处理好领导和下属的关系,做好他们之间的桥梁和纽带,起到一个承上启下的作用。本文主要论述了,企业秘书概论;秘书的定义;秘书的重要性;企业秘书各种关系的协调;企业秘书对企业发展的作用;企业秘书的发展。  【关键词】:企业秘书;纽带;关系;发展;协调;影响  一.企业秘书
期刊
【摘要】:木雕是人们在长期的生产、生活实践中不断创造和积累起来的一类内容丰富的传统艺术。它不仅能反映出不同时期人民的生活方式和思想意识,而且是历史文化进程的具体、有幸的见证。从多方面体现了人民的生活情趣、文化艺术、民族风俗以及宗教信仰等内容。我的作品是通过对一些整木的灼烧,深入对其打磨,分割再组合的方法,展现自然的力量与木头本身的对比。  【关键词】:木雕;马王堆;灼烧  1 木雕发展史  木雕是
期刊
【摘要】:农业我国是国民经济的支柱产业,对于拥有10 几亿人口的超级大国而言,农业的发展在未来的发展市场上具有举足轻重的作用和价值。然而,国内农业的发展存在着极大的困难和弊病,使得传统农业生产方式不可维继。为此本文根据对国内农业市场的发展趋势和前景进行了详细的分析和探讨。  【关键词】:农业发展;现状;生态破坏;立体农场;能源再利用  随着人类经济的发展和人口不断膨胀,地球的资源正在被日渐耗损。目
期刊
【摘要】:军事信息支援行动是美军近年来对心理战理论原则、组织实施和体系应用的重大变革,其核心是“告知与影响”活动,而网络心理战是其新形式。近年来恐怖主义活动猖獗,大多是利用网络心理战来扩大其影响,因此对网络心理战进行就好的区分和判断就是关键  【关键词】:网络心理战;恐怖主义;军人  从心理战到军事信息支援行动,是美军心理战理论的重大转变,其中的转变之一就是突出了信息的重要性和地位[1]。众所周知
期刊
【摘要】:随着全球互联网的发展和世界经济一体化的进一步发展,物流业作为国民经济中的新兴产业,正在世界范围内快速发展,在国际上物流产业被认为是国民经济发展的重要基础,其发展程度成为衡量一个国家现代化程度和综合国力的重要标志之一。因此,研究电子商务环境下物流的发展,对增强企业竞争力,具有深远的意义。本文以理论探讨为研究手段,在电子商务与物流的关系基础上,对电子商务环境下物流模式选择进行简单分析。  
期刊
【摘要】:本文概括分析了PLC控制程序开发过程的方法及步骤,并对每个步骤进行详细的说明,指出了PLC控制程序开发过程当中应注意的问题。  【关键词】:PLC;程序;控制;开发  PLC控制软件设计一般分为以下几个步骤:  ①程序设计前的准备工作  ②程序框图设计  ③编写程序  ④程序测试  ⑤程序调试  ⑥编写程序说明书  程序设计前的准备工作大致可分为若干个方面  (1)了解系统概况,形成整体
期刊
【摘要】:高职院校的专业设置能否满足产业的发展需求是专业设置的根本依据。本文以浙江省的49所高职院校设置的专业为依托,分析浙江省产业现状和发展趋势与相关专业设置的关联性,探究影响产业结构和专业结构关联性的原因。  【关键词】:高职院校;专业设置;产业结构;关联性  专业设置是高职院校生存发展的基础,是高职院校如何培养高技能人才、服务地方经济的关键所在。高职院校的专业设置,要充分考虑产业发展、个体发
期刊
【摘要】:在深入掌握山西省晋中市榆次老城景区基本情况的前提下,利用SWOT分析工具分析榆次老城旅游发展的优势、劣势、机会和威胁。在此基础上,提出榆次老城旅游开发与发展的战略选择建议。  【关键词】:榆次老城;SWOT分析;战略选择;建议  榆次老城位于晋中市榆次区,是一座拥有1400年历史的古城,又被称为“并南重镇”、“晋藩首府”等,是国家3A级景点。其旅游资源独具特色,集古县衙、古民居、古街道、
期刊