面向数据挖掘的隐私保护方案研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hema5177
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机运行速度、信息技术和互联网应用的迅猛发展,数据信息量极速增长,这些数据经数据挖掘处理后,能够获得有用的并且有价值的信息来进行决策。然而,在许多专业领域,如金融、电信、医疗等行业,使用数据挖掘技术产生的数据结果有可能会产生泄漏个人或企业机密信息的情况。因此,如何在防止隐私泄露的前提下,依旧能高准确度地进行数据的挖掘工作,成为了一个亟待解决的问题,也即,面向数据挖掘的隐私保护方案的研究成为了数据挖掘和信息安全两个领域共同的研究重点之一。在此背景下,保护用户的信息隐私数据安全而又不影响数据挖掘的效果的研究具有一定的理论意义和应用参考价值。本论文通过对隐私保护相关理论的研究,在总结现有面向数据挖掘的隐私保护算法研究成果的基础上,提出了一套隐私保护方案。该方案针对现阶段隐私问题暴露的新特点,对现有k-anonymity算法不能抵抗同质攻击、信息损失较高等问题,对算法进行了优化研究。并基于此算法进行了数据发布系统的详细设计与具体实现,最后对该系统的隐私保护效果和性能进行了测试。测试结果表明本系统能够相对高效地实现对数据的发布功能并且在增加少量的计算代价的条件下,保护了用户的隐私信息。本论文的主要内容包括:1、首先,本文对隐私和隐私保护以及数据挖掘的相关概念进行了具体地介绍,并对已有方法进行了分析与综述;其次,概述了三种主要的数据挖掘算法,即关联规则算法、分类算法以及聚类算法;最后介绍了四种已有的面向数据挖掘的隐私保护方法,并对每个方法进行了详细的分析与总结。2、结合时下隐私问题暴露的特点,针对k-anonymity算法进行了深入的研究与分析,并提出了改进方案。该方案为降低了数据损失度,对算法先进行聚类操作,再利用k-anonymity算法的k均值思想进行整合,并针对原算法不能抵抗同质攻击的问题,对算法中选定的单敏感值属性进行了约束;最后基于改进算法,对该面向数据挖掘的隐私保护方案,进行了详细地数据发布系统的总体设计;3、首先,对前述数据发布系统进行了具体的实现,分别给出了用户界面模块、数据导入模块、数据预处理模块、数据挖掘模块、隐私保护模块、日志管理模块与数据发布可视化模块的实现说明和伪代码;其次,介绍了系统各个模块间的相互关系;再次,针对改进算法的性能和系统的隐私保护效果进行了测试;最后,对论文进行了总结和未来工作的展望。
其他文献
总结了大型地下洞室群地震动力灾变研究中的若干重要问题的研究进展,包括4个方面:大型地下洞室群地震动力灾变模式的分类、地震动力灾变诱发因素的辨识、现有地震响应的分析
目的考察澳门中学生精神信仰的现状与特点。方法采用中学生精神信仰问卷对1379名澳门中学生的精神信仰进行调查。结果1澳门中学生在一级信仰因素上的均值排列顺序由高到低依
<正> 中毒机理有机氟化合物的毒性及其中毒机理,尚未全部阐明,仅就部份科研资料概述如下。1.有机氟(以氟烯烃类为例)的化学活性较不稳定,其分子中的氟原子数目越多,毒性越强
随着城市化进程的发展,产业结构的调整和房地产业的兴起,原先的工厂厂房建筑面临着被拆除和废弃。围绕着工厂的居民小区当初的热闹繁华已经不再,取而代之的是各个时期的民居
毛泽东的《实践论》是马克思主义认识论的重要著作。它的全部内容都是围绕认识和实践的关系问题展开的。本文试把信息论的概念引入认识论,对毛泽东在《实践论》中所削述的认
采用热失重-傅立叶变换红外光谱(TGA—FTIR)联用技术研究了空气气氛下ABS树脂的热稳定性及热氧降解失重情况。研究了ABS在4个不同升温速率下的失重情况;采用TGA—FTIR联用技术对
人为活动产生温室气体的来源之一是城市废弃物处理。参考《省级温室气体清单编制指南(试行)》,结合城市废弃物处置状况,研究新疆2010年废弃物处理的温室气体排放。结果表明:2
医疗设备档案存储和查询的便捷性是档案管理得以发挥实质性作用的重要保障。通过构建网络服务器,为医院内每台医疗设备建立便捷的档案存储和查阅途径,以二维码作为访问媒介获
实验类题目是高考和各级各类考试的必考内容之一,因之对常见实验题型进行分类,并逐一掌握其应考策略,是高考备考中的重要一环。1区分实验组和对照组实验组、对照组的区分常以选
【目的】根据上海市某流感监测哨点医院监测结果,分析流感流行特征及病原学特点。【方法】收集并分析某国家级哨点医院2012—2017年流感样病例数据,进行网络实验室病原学检测