数据采集与分享中隐私保护方法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:landgale527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前科研领域对于隐私保护的研究工作,主要集中在隐私数据的发布和分析技术上。当前主要的研究方向通常都假定数据采集与数据预处理工作已经完成,并在数据挖掘的基础上,通过比较典型的如随机抽样、数据扰动、多方安全计算与加密等方法,研究在数据分析过程中的隐私保护技术。然而,一旦完成了数据的采集,数据提供者的数据都已提交到数据采集者手中,数据提供者也必须完全信任数据持有者的隐私保护意愿与隐私保护能力。此时,隐私保护环节工作就完全交到了数据持有者手中,数据提供者的隐私安全就完全取决于数据拥有者的道德准则和隐私保护能力。通常情况下,数据挖掘的目的是通过零散的个人信息,揭示隐藏的数据特征,发现隐藏的有价值的信息,而隐私保护的目标是隐藏个人信息,这两点恰恰是完全对立的。因此,将隐私保护的重任完全寄托于数据采集者一边,依靠其自我管理能力进行隐私控制,往往很难同时满足这两个目标。  针对这些情况,本论文主要通过对数据采集和数据挖掘两个阶段的研究,分别提出了对用户隐私进行保护的方法,主要研究内容如下。  第一,在用户数据的采集阶段。  本文提出了一种由用户控制的隐私数据提供技术,确保数据提供者能够在数据采集阶段对用户隐私进行更多的控制,从而站在数据采集者的角度提高对隐私数据的控制能力,根据其对个人隐私的判断,保护其隐私数据的安全性。同时,该隐私保护技术还应满足数据挖掘的需要,保护所采集的数据从整体规模数据的角度,能够满足数据分析的需要。  这种由用户控制的隐私数据保护技术是基于概念分层理论所提出的。本文依托该理论,提出了基于层次结构的隐私层级模型(privacy level,p-level),用于对隐私数据进行数据采集。利用该模型,数据提供者可以针对任意的数据属性,自主选择隐私层级,并根据选定的隐私层级提供其相应级别的个人数据。该模型能够根据不同隐私层级选项,对不同的用户群采取不同的隐私保护措施。对于隐私分级模型所提供的隐私层级较高的数据,可以提供加严格的隐私保护。依据用户对隐私级别的不同选择,可以向外部提供不同级别的用户数据值。随后,本研究通过实证方法,将本文所提出的隐私层次模型与传统数据提供商所采取的固定层级法(fixed level,f-level)进行了对比。研究基于《2010年全国人口普查表》的调查内容,抽取了部分独立性较强、并且容易进行分层处理的调研问题进行了实际的问卷调研。由于在数据挖掘的过程中包括了对不同隐私层级数据的整合,当低隐私层级的数据与高隐私层级的数据整合后,可能导致隐私信息的泄露。在对外发布前对数据进行匿名保护,以进一步降低侵犯隐私的风险。因此,本文最后描述了隐私层级下降的现象,并提出了识别和控制违反隐私行为发生的方法。通过本文所介绍的基于p-level的数据采集方法,可以让数据提供者灵活地选择隐私层级,这样数据提供者就可以自由地选择他们觉得安全的隐私级别,以此来提供个人隐私数据。  在完成了数据采集工作后,在采集规则允许的前提下,数据采集者总是希望获得更加准确的数据。对于通过概念层次法所采集的个人数据,仍然存在用户隐私被侵犯的场景。这就造成了用户隐私级别的下降。因此,要更好地保护数据提供者的隐私,就需要在考虑到在后续的数据挖掘过程中,数据采集者可能通过数据分析方法,对用户隐私造成的侵害。因此,随后提出了如何通过隐私侵犯的检测与规避技术来预防其隐私受到侵害,并提供了正式的定义和方法来识别和控制用户隐私级别下降现象,用以减少减少个人隐私的泄露。文中对每一种引起隐私级别下降的攻击方式进行了分类讨论,其中引起隐私级别下降的主要原因有,数据值的单一性、数据多样性的缺失、数据协作采集、数据协同分析、数据连接、数据分析连接等。随后,文中提出了如何在数据提供者和数据采集者层面来检测、避免和控制其对隐私的侵害,来确保隐私侵犯不会发生。  第二,在获取数据的分享阶段。  对于用户主动填写上传的数据,可以用概念层次法进行较好的保密处理,数据采集者还拥有大量在生产、检验、医疗等过程中积累的客户数据。随着大数据技术的发展,越来越多的企业和组织采用数据挖掘技术来分析所采集数据,该技术的发展使人们可以对大量的数据进行有效地分析,从海量数据中发现真正有价值的信息和知识。由于数据挖掘技术的发展,它一方面,它可以从非敏感信息中推导出敏感信息,另一方面,数据挖掘的对象也就是原始数据本身,可能就涉及许多敏感信息。例如,个人隐私信息、商业机密和国家安全信息等。如果恶意地运用数据挖掘技术进行分析和处理,这就会对数据共享方的隐私造成侵害,并对信息安全构成威胁。因此,本研究针对原始数据集中,有部分的知识信息为敏感信息的情况下,在共享数据之前,如何对原始数据集进行处理,防止敏感信息遭到泄露。同时,对原始数据集进行变化处理时,不可避免地对一些非敏感的数据进行扭曲变化,使其真实性受到一定程度的影响,这对数据接受者会造成不必要的困扰。因此,希望对原始数据集进行变化处理时,尽可能地减少对原始信息变更的不利影响。  频繁关联规则挖掘是一种知识表达的有效手段,同时,频繁关联规则挖掘是数据挖掘中的一项基础挖掘算法。在数据聚类分析、特征抽取、数据分类和数据关联规则挖掘中,都有其应用价值。本章重点研究在共享原始数据时,如何通过频繁关联规则表现知识,对数据中隐含的敏感信息进行保护,并防止用户隐私信息泄露。通过本研究,以不泄露敏感关联规则为前提,在信息共享中保留尽可能多的非敏感关联规则,从而提高共享信息的可用性。通过研究数据共享时,如何保护数据中隐藏的敏感关联规则,本文提出了一种基于弱关联规则树结构的数据净化方式算法STDB,综合考虑数据净化对非敏感关联规则的影响,以实现对敏感关联规则的保护。该算法通过考察全部的敏感关联规则,遍历弱关联规则树,并计算敏感交易记录的分数和敏感项,用以对每一条敏感交易记录的候选项进行确定。随后,在这些敏感交易记录中,选取分数较高的部分对其删除,这样就可以防止敏感关联规则的泄漏,同时降低对非敏感关联规则的影响。随后,通过实验验证了本方法在满足隐私保护的同时,还能够降低对非敏感关联规则的影响,从而提高共享数据的可用性。  在实际的商业共享应用中,许多时候可以下降隐私保护的级别,允许信息获取者确定原始数据集上存在的敏感关联规则,但是不允许敏感关联规则的频繁性被获知。这就意味着,需要使数据接收者无法知晓信息共享者在挖掘数据频繁关联规则时所采用的最小支持度阀值是否小于敏感关联规则在原始数据集上的支持度。同时,这种方式可以为信息共享者提供较为灵活的隐私保护机制,使信息共享者能够通过对挖掘频繁关联规则时采用的最小支持度进行调整,来控制敏感关联规则的隐藏程度。本研究从上述需求出发,通过阻塞相关反向推理通道,加强对敏感关联规则频繁性的隐藏,从而解决频繁关联规则共享中的推理控制问题。通过对频繁关联规则挖掘结果中关联规则相关性的分析,可能存在的推理通道主要有以下三种:超关联规则、子关联规则和链式推理通道。随后,基于关联规则净化的思路,提出了一种推理控制算法来隐藏敏感关联规则的频繁性。在此基础上,本章节提出了SBLK和BIFCH两种推理控制算法。实验结果表示算法BIFCH需要相对多的执行时间,但其执行效果优于算法SBLK。  随着网络技术和通信技术的发展,数据挖掘很难适应当前数据库信息不断更新的现状。在信息时代,在实现快速、高效的数据挖掘的同时,如何保护用户的隐私,同时一直是有关科研机构的研究热点。基于此,本文对基于Granular计算的频繁关联规则挖掘算法,提高隐私权保护能力的方法进行了研究。基于相关理论和技术的详细分析,本研究针对保护隐私的个人用户和集团用户,提出了不同的隐私保护方法,并总结了在隐私保护数据挖掘中所采用的主流算法。随后,本节通过高效的隐私保护关联规则,对数据挖掘算法所需完成的数据库扫描工作进行了改进,并通过与相关算法的多次比较,提出了基于Granular计算的高效隐私权保护频率模型数据挖掘算法的优点。最后,在相同的环境下,通过实验对该算法与之前提出的算法进行比较,结果表明,基于Granular计算的高效隐私权保护频率模型,能够极大地提高了数据挖掘保护隐私,对于提高数据挖掘算法的效率具有重要的意义。  综上所述,本文在隐私数据的采集阶段,通过探讨使用隐私分级模型获取应用数据,并提高数据挖掘的安全性的方法。通过隐私分级模型解决采集数据的分类问题,并通过该模型与固定层级法所获得数据对于数据分析准确性影响的比较,认为本文所提出的隐私分级模型对于隐私数据的保护是行之有效的。在数据分享阶段,对数据共享中的敏感关联规则保护工作,提出了一种基于弱关联规则树结构的数据净化方法STDB,在满足隐私保护需求的基础上,使数据净化对非敏感数据的影响得到了下降,使数据可用性得到提高;对频繁关联规则共享中的推理控制问题,通过阻塞各类推理通道隐藏敏感关联规则的频繁性。提出了SBLK和BIFCH两种推理控制算法,并通过实验对以上算法进行了比较。最后,针对当前数据挖掘算法的不足,提出了基于Granular粒计算的高效隐私频繁挖掘算法,开发了算法平台。通过对比实验,本文有效地证明了该算法平台在工作效率方面的优越性,得出以下结论。平台使用算法通过粒度大小将关系数据表转换为面极关系模型,将数据处理转化为粒计算的方式,从而保证准确性不降低,数据挖掘的效率大大提高改进。数据挖掘平台的发展提高了对数据挖掘开发的有效性有很大的意义。当然,技术的发展,对数据挖掘的要求会越来越高,所以这个平台也需要很多的需要改进,这些需要进一步研究.
其他文献
[摘 要]随着新课程改革的不断深入,大家也越来越重视综合性学习活动在初中语文教学中的重要作用。综合性学习主要体现为语文知识的综合运用、听说读写能力的整体发展,语文课程与其他课程的沟通、书本学习与生活实践的紧密结合。综合性学习活动不仅为学生创设浓厚的教学情境,激发学生的学习积极性,同时提高教育教学成效。    [关键词]综合性学习活动,初中语文,激发兴趣,提高成效  教学过程的枯燥乏味,是当前初中语
这是一群穿着军装的文人。昨天的他们,曾把狼牙山五壮士、董存瑞、邱少云……一个个普通士兵的英雄形象写入历史的画卷。今天的他们,活跃在喜玛拉雅哨所的风雪中,活跃在中国
创造能力是人类最宝贵、最富有价值的财富。人类的进步和发展都源于创造力。根据人的心理、生理发育特点表明,幼儿期是培养和发展创造力的关键时期,因此,作为当代的幼教工作者,在授予幼儿知识和技能的同时,更要注重培养他们的创造力。游戏是幼儿的基本活动,在游戏中幼儿的主动性、积极性、创造性都能得到充分发挥,那如何在游戏中发展幼儿的创造能力呢?仅谈一些实践中的经验和做法。  一、让幼儿在游戏中积极尝试,激发幼儿
摘 要:人生本如生铁,要成为锋利的宝剑,须经受雄能困难之火的炙烤,忍受千锤百炼的痛苦。在困难中坚持,在困难中前行。以困难之火,淬精彩人生。  关键词:困难;应变能力;态度  [中图分类号]:G63 [文献标识码]:A  [文章编号]:1002-2139(2017)-02--01  我们又何尝不与幼雕相似呢?小时候,我们有家长的庇护,生活得安逸舒适。随着年龄的增长,我们的人生也渐渐出现了一些“尖刺”
一个新上任的村党支部书记,接的又是一个穷村乱村,党心不凝聚,民怨又沸腾,矛盾非常多,先从哪儿下手?别的可以放放,得先把群众盯着的、瞪着的那些热点、难点、焦点问题赶紧处
6月11日,南国早报一记者到广西全州县公安局采访,虽然向公安局有关领导出示了新闻出版总署核发 On June 11, a journalist from Nanfang Morning Post interviewed the Quan
摘 要:随着对外语学习的深入研究,阅读焦虑感对英语阅读也会产生重要影响越来越受到重视。因此本文拟从对阅读焦虑的影响因素分析出发,以Horwitz等人的焦虑理论为基础,进一步探究造成中国大学生阅读焦虑感的各种因素,帮助英语学习者缓解英语阅读焦虑,提高阅读理解能力和外语学习成绩。  关键词:英语阅读焦虑;因素分析;成绩  作者简介:张志荣(1994-),女,汉族;山西省大同市人,辽宁大学研究生,研究方
社会需要高素质的人才,而这一任务只能落在教育这一杠杆上,全民素质的提高只能落在教育工作者身上,班主任更责无旁贷。班主任工作繁多而艰辛,责任重大,要具备以下的几种素质:  一
[摘要]《新课标》对中学生的英语阅读能力的要求和新的《英语教学大纲》对初中毕业生的词汇量的要求与笔者的学生实际情况有巨大的“落差”。穷则思变,笔者根据多年的教学实践,尝试一条即符合自己学生的学情又可行性较强的急救方法—“智慧早餐”。通过两年多的实践和摸索,有了一些收获。本文是笔者开展这项活动的一些思考和有关做法。  [关键词]新课标英语阅读 活动 词汇量智慧早餐思考  一、活动前的思考  1、开展
[摘 要]数控车床实训是机电类专业的主要实训课程。通过学习本课程使学生获得对数控车床的感性认识,了解数控车床的工作原理和工作方法。基本掌握数控车床的操作技能、典型零件的加工工艺及手工编程的方法。我校把实训分四个阶段,以巩固和深化理论知识,提高和完善操作技能。    [关键词]数控车 实训 四个阶段   目前,我国制造业对既掌握数控技术又熟练数控编程、加工操作的中等职业毕业生需求越来越大,由于数控技