在数据挖掘中保护隐私信息的研究

来源 :上海交通大学 | 被引量 : 11次 | 上传用户:TIANYAGUKEXING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今社会最为重要的知识发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私、商业情报和政府机密。更为令人担忧的是,在这些数据的实际使用过程中,特别是在挖掘过程中,大量的信息却能被不加限制的肆意利用,个人隐私和机密信息的泄露严重影响了人们的日常生活甚至社会的稳定。于是,数据挖掘过程中随手可得的海量信息也就使得人们对滥用隐私的忧虑在挖掘工具的运用上得到了集中的反映。面对在数据挖掘中保护隐私的迫切要求,传统的保护方法却难以胜任,因为它们在保护敏感信息的同时,也妨碍了数据中知识的获取。针对数据挖掘中的隐私保护和知识获取这一对棘手的矛盾,我们研究和提出了一系列变换原始数据的过程、协议和方法,阻止了挖掘过程的参与者对隐私信息直接或间接的获取,同时也使得挖掘算法能够从转换后的数据之中获得原始数据包含的信息和知识。大量仿真实验的测试结果,以及与现有方法的对比成绩也验证了我们方法的有效性。由此,我们不但消除了传统挖掘过程中存在的隐私泄露风险,也使得挖掘过程仍然可以取得准确的结果。我们将本文的创新点和主要工作概括如下:1.提出了隐私信息由数据关联构成的本质,并同时提出了两种保护隐私的策略。通过研究现有隐私保护模型中的不同数据对象,我们发现无论何种数据属性都不能准确的表示出数据集合中所包含的隐私信息。通过进一步的例证、理论分析和比较,我们提出了隐私信息的本质属性:数据间的关联,并由此提出了两类保护隐私的策略:分解隐私信息和转换隐私信息,将它们作为隐私保护研究的指导思想。同时,我们也详细介绍了隐私保护的原因、意义及其模型的应用范围和场景。2.提出了利用随机化技术来分解隐私信息的方法,并提出了平衡隐私保护和知识获取这对矛盾的可调节机制,同时也消除了先验知识对隐私的威胁。我们在发布数据集合的问题中,结合分解隐私信息的策略,提出了一种利用随机化技术来保护隐私的方法。该方法利用原始数据的分布信息,随机选取部分原始数值进行转换,与匿名化和多样化隐私保护模型相比,我们的方法不仅大幅提高了使用者对原始数据的不确定程度,而且还能够保持数据中的大部分有用知识。同时,针对用户掌握的先验知识可能会造成的隐私泄露,我们提供了一种平衡隐私保护和挖掘准确性的可调节方法。3.提出了转换隐私信息的数据变换协议和数据整合方法,在恶意合谋的情况下实现了隐私的保护,并提出了按需定制隐私保护程度的方法。我们结合转换隐私信息的策略,为每一位数据拥有者提出了转换其原始数据的方式和传输数据的协议,同时也为挖掘者提供了整合不同数据源的方法。我们的转换方法和协议都基于数据矩阵的变换,变换方式的正交性质在半诚实的计算环境中完美的避免了隐私保护和准确挖掘之间的矛盾;而在恶意合谋的情况下,我们的随机转换方式成功的将隐私泄露的风险控制在有限的范围内。另外,数据集合的不同属性在实际使用中通常拥有不同的重要程度,因此我们也实现了对隐私保护程度的定制方法,使得数据拥有者可以按照实际的需要,灵活的保护不同的属性。4.提出了能够适应大规模参与者的可扩展隐私保护方法,有效的实现了隐私保护、准确挖掘和可扩展性这三者之间的平衡,同时也进一步提出了适用于高维数据集合的保护方法。可扩展性问题一直是隐私保护研究所面临的挑战。我们量化分析了数据挖掘的参与者数量对隐私保护和准确挖掘所带来的不同影响。并提出了一个能够适应大规模数据提供者的原始数据转换方法,使得隐私保护方法的性能独立于参与者数量的变化。同时,我们也研究了干扰量的独立性对隐私保护的影响,并由此提出了一个能够灵活适应不同数据维度规模的隐私保护方法。
其他文献
视频目标跟踪是计算机视觉领域的关键技术之一,在民用和军事的诸多领域中都具有极为广阔的应用前景,包括智能监控、基于视觉的人机交互、智能交通、机器人视觉导航、精确制导
高平市是山西省四大梨区之一,分布比较广泛,在南城办、寺庄等乡镇均有梨树栽培,被专家认定为梨树发展的最佳生态区。梨园标准化冬季管理是一项很重要的措施,对减轻来年梨树病
多媒体技术的出现为我们教学手段改进提供了新的机会,达到了效率与质量的双丰收。随着计算机的普及,多媒体技术被广泛应用到教育教学上,极大地激发了学生学习兴趣,丰富了教育教学
高职传统的英语课程知识观是把学习主体和课本知识进行分割,在此过程中忽略了知识本身就是人类在运用自身的智慧对世界进行探索的产物这样的客观事实,难以表现出人类的发展和课
文章简单介绍了数学分析方法中相关性分析、聚类分析、因子分析的算法原理,并利用该方法对嘎拉勒外围和躬琼左波两条剖面的岩石地球化学数据进行了处理。对样品进行了R型聚类
在对不同厂家水泥试配的基础上,指出水泥中C3A,碱含量高时,砼的单位用水量,坍落度损失都可能增大,同时也加大了外加剂对水泥适应性的难度。
张栻的教育思想植根于儒家传统,重视人格培养,强调伦理道德教育,在教育目标、方法、成效等方面,有比较系统、深入的论述,同时也表现出鲜明的理学色彩。张栻的明伦教育理念,提
新课程改革是新时代发展的必然要求,在我们的教育生涯中已经走过了近四十年,新课程标准是教师们应该遵循的章程,是教师进行教学的基础。因此,我们在课堂中的教学方式必须要与
目的:探讨造成重庆市儿童夭折的主要死因及其对寿命的损失。方法利用重庆市2012年儿童死亡调查资料,分析不同死因的死亡率和潜在寿命损失。结果2012年重庆市儿童死亡率为61.77/1