论文部分内容阅读
随着计算机运行速度、信息技术和互联网应用的迅猛发展,数据信息量极速增长,这些数据经数据挖掘处理后,能够获得有用的并且有价值的信息来进行决策。然而,在许多专业领域,如金融、电信、医疗等行业,使用数据挖掘技术产生的数据结果有可能会产生泄漏个人或企业机密信息的情况。因此,如何在防止隐私泄露的前提下,依旧能高准确度地进行数据的挖掘工作,成为了一个亟待解决的问题,也即,面向数据挖掘的隐私保护方案的研究成为了数据挖掘和信息安全两个领域共同的研究重点之一。在此背景下,保护用户的信息隐私数据安全而又不影响数据挖掘的效果的研究具有一定的理论意义和应用参考价值。本论文通过对隐私保护相关理论的研究,在总结现有面向数据挖掘的隐私保护算法研究成果的基础上,提出了一套隐私保护方案。该方案针对现阶段隐私问题暴露的新特点,对现有k-anonymity算法不能抵抗同质攻击、信息损失较高等问题,对算法进行了优化研究。并基于此算法进行了数据发布系统的详细设计与具体实现,最后对该系统的隐私保护效果和性能进行了测试。测试结果表明本系统能够相对高效地实现对数据的发布功能并且在增加少量的计算代价的条件下,保护了用户的隐私信息。本论文的主要内容包括:1、首先,本文对隐私和隐私保护以及数据挖掘的相关概念进行了具体地介绍,并对已有方法进行了分析与综述;其次,概述了三种主要的数据挖掘算法,即关联规则算法、分类算法以及聚类算法;最后介绍了四种已有的面向数据挖掘的隐私保护方法,并对每个方法进行了详细的分析与总结。2、结合时下隐私问题暴露的特点,针对k-anonymity算法进行了深入的研究与分析,并提出了改进方案。该方案为降低了数据损失度,对算法先进行聚类操作,再利用k-anonymity算法的k均值思想进行整合,并针对原算法不能抵抗同质攻击的问题,对算法中选定的单敏感值属性进行了约束;最后基于改进算法,对该面向数据挖掘的隐私保护方案,进行了详细地数据发布系统的总体设计;3、首先,对前述数据发布系统进行了具体的实现,分别给出了用户界面模块、数据导入模块、数据预处理模块、数据挖掘模块、隐私保护模块、日志管理模块与数据发布可视化模块的实现说明和伪代码;其次,介绍了系统各个模块间的相互关系;再次,针对改进算法的性能和系统的隐私保护效果进行了测试;最后,对论文进行了总结和未来工作的展望。