数据水平分布的隐私保护数据挖掘算法研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:fmklsdfjds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方参与下的数据挖掘,即分布式条件下的数据挖掘。传统的数据挖掘是直接作用在数据集之上,因此在分布式环境下如何保护各方的隐私信息同时进行数据挖掘已经成为科研和商业等领域关注的焦点。数据的分布方式包括水平分布和垂直分布两种情况,其中数据水平分布应用场景广泛。数据的水平分布指的是数据按照条目分布在各不同的服务器上,不同服务器上的数据具有相同的属性类别,具体的属性值可能不同。本文针对数据水平分布情况下的隐私保护数据挖掘问题,具体包括聚类挖掘、分类挖掘以及关联挖掘,均设计了相关算法来保护挖掘过程中可能存在的隐私泄露问题并对上述的算法进行了实验验证。具体研究工作如下:(1)针对聚类挖掘下的隐私信息保护问题,设计一种数据水平分布条件下的隐私保护聚类挖掘解决方案。首先,利用SMC(安全多方计算)技术初始化全局聚类中心,然后各站点依次把本地数据按照全局的聚类中心分配相应的簇,在每一轮迭代结束时,重新利用SMC技术来确定新的聚类中心,最后经过多轮迭代之后,直至聚类中心不再发生明显的变化。由于在计算全局聚类中心的过程中并不会涉及到各站点具体的数据值,因此该方案在得到正确的聚类结果同时,较好的保护用户的隐私。(2)针对分类挖掘下的隐私信息保护问题,设计一种数据水平分布下的隐私保护分类挖掘算法。本算法使用了BP神经网络进行分类分析。首先,通过各站点初始化网络权值,即随机选择各个站点给出的权值初始值;其次,对各站点输入的样本数据进行分类计算。每一轮的计算会产生权值的增量,利用同态加密技术计算各站点的权值增量和,从而保证各站点数据的独立性,隐私不会被泄露,在同态加密中使用了Paillier密码系统;最后经过多轮的迭代,直至误差精度满足要求为止。由于同态加密体制的引入,该算法在计算出正确的分类结果同时,较好的保护了各站点的隐私。(3)针对关联挖掘下的隐私保护问题,设计了一种数据水平分布下的隐私保护关联挖掘算法。本算法使用基于划分的改进Apriori算法来找出候选项集,由第三方的站点利用同态加密来计算候选项集的计数和。经解密后,由候选项集得出频繁k项集。根据条件决定是否循环上述过程,利用各个站点找出候选k+1项集。支持计数作为各个站点的关键信息,在计算的过程中被很好的保护,因此保护了各个站点隐私。
其他文献
操作系统是信息系统安全的最重要的基石之一。安全操作系统不是安全功能的简单叠加,必须要有严密科学的安全体系结构加以保证。安全体系结构是安全操作系统系统开发的基础。本
计算机群集是一种把多台计算机组织起来,通过统一的资源整合与任务调度,模拟成一台功能更为强大的机器,通过分布式计算来协同完成各种任务的技术。随着计算机硬件性能的提高,计算
21世纪是信息的世纪,如何获得高速、准确的信息,并及时地交流和管理,已成为国家、企业和决策部门的迫切需要。地质环境变化是一种动态变化过程,其预测与防治研究是一项庞大的系统
随着Internet和计算机技术的飞速发展,嵌入式系统呈现巨大的市场需求,成为当今IT产业的焦点之一,其应用领域涉及通信、自动化、信息家电、军事等各个方面。但同时大量的嵌入式应
在网络时代,信息资源共享已经成为信息交流的一种重要方式。资源共享就是采用先进的科学技术,有组织有系统地对信息与文件进行整合,通过网络最大限度地为社会公众所用。 人们
随着技术的不断发展,开放网络环境越来越受到人们的关注。开放网络中没有中央服务器,网络中的每个节点都是对等的并且具有相同的能力。开放网络环境具有分布和开放的特点,网络结
地图是地理信息可视化的信息载体之一。地图整饰需要点、线、面符号和图例、比例尺、指北针等可视化要素,良好的可视化要素风格能使地图使用者迅速、准确的判读地理信息。本文
近年来,随着网络应用的快速发展,大型的分布式环境下的网络应用需求增加。而在分布式环境下出现的访问控制和授权管理问题作为网络安全服务的一个重要研究领域得到了众多学者的
信息技术投资是20世纪90年代企业界和学术界最热门的话题之一。许多大型跨国企业都把对信息技术的投入放在企业的战略位置上。经济学家认为,企业对信息技术的巨额投入必将对全
工作流时间管理是工作流领域的重要研究内容。开展工作流时间管理的研究,对于增强工作流管理系统的柔性、提高工作流各活动执行实体的协作效率、确保工作流计划的高效执行、提