基于分类挖掘的数据隐私保护方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:hellstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络数据信息时代的快速发展,数据挖掘技术可以从大量数据中发现对人们切实有用的信息,以便研究人员对这些信息进行分析。但是在对数据进行挖掘产生知识和给人们现实生活带来便利的同时,用户的敏感隐私信息难免不会出现泄露。虽然现在已有很多关于分类挖掘隐私信息保护的方法被提出,但无论对隐私信息采用哪种方式进行保护,都会对用户原数据信息产生不同程度的破坏。因此,如何确保在保护用户的隐私信息不被泄露的同时又能够最大限度的保证分类数据可用性问题,是近年来数据挖掘隐私保护领域中研究的热点问题之一。本文首先概述了分类挖掘中隐私保护方法的研究背景、意义和国内外研究现状,详细阐述了关于K-匿名处理经典模型和隐私匿名分类挖掘相关技术;其次,在考虑不同准标识符属性对敏感属性产生不同分类有效程度方面,提出了一种面向权重属性熵的分类匿名保护算法,该算法采用了信息熵的概念来衡量不同准标识符属性对敏感属性的分类重要程度,计算最优权重属性熵对数据进行有利的分类,并给出了隐私匿名信息损失度量标准,根据分类信息和匿名损失信息来构建分类匿名保护度量,以此来保护数据隐私性和可用性;再次,在保证数据安全性和可用性平衡的基础上,针对属性过度匿名情况而影响数据质量损失的问题,提出一种面向属性匿名策略的分类隐私保护算法。该算法结合了匿名泛化层次和最优划分属性的策略来降低属性过度匿名带来的信息损失,从而在进行属性匿名时,采用了分类杂度指数来选择最优划分,对数值属性和分类属性进行有利的匿名分类处理,并将其分类匿名到适合的度量,以此来减少过度匿名情况,保证分类数据可用性。最后,对提出的两种算法进行实验验证其有效性,使用经典算法进行对比。实验结果分析表明,这两种算法均能够更好的保持用户隐私敏感信息的同时还能够高效的保证了数据可用性。
其他文献
从中医对郁病的认识及其由肺论治郁病的理论基础、临床经验进行归纳总结,进一步明确由肺论治郁症的理论与临床的统一性。
为了研究煤浆管道磨蚀余量的取值合理性,采用了实验室动态模拟的方法,用MSH型旋转磨蚀试验机,对磨蚀的3个主要影响因子,即pH值、浓度、流速,进行了正交排列,共排列出7种组合,
2017年6月30日,中注协发布《会计师事务所信息化促进工作方案》,提出了促进会计师事务所信息化建设的系列措施。按照该方案"建立信息技术产品推介平台,促进会计师事务所与软
【目的】建立簸箕柳组培再生体系,为在簸箕柳中开展功能基因组研究奠定基础。【方法】分别以簸箕柳带腋芽茎段和种子为外植体,比较不同消毒方法、基本培养基类型、光照条件及
蝴蝶资源状况能够敏感地反映出特定区域的环境质量,特别是气候及植物群落的变化情况,因此被作为区域生物多样性的重要评价指标.本研究针对新疆夏尔希里自然保护区山地草原带
7月15日,《哈利·波特》最后一部电影开始在全世界陆续上映,哈利·波特和他的伙伴们的冒险之旅似乎也要告一段落了。斯内普死了,双胞胎兄弟之一的弗雷德死了,卢平夫妇也丢下
网络逐渐成为人们生活的关键伙伴,相应的对人们生活的影响也在不断加大,有利有弊,本文以ISP(网络服务提供者)链接服务为切入点,结合美国立法重点讨论其对著作权的侵权情况。
目的:了解SARS病房护士对突发事件的应对方式及社会支持情况。方法:采用问卷调查法,对在SARS病房工作的护士进行简易应对方式量表与领悟社会支持量表评定。结果:1 .护士年龄(
稻褐飞虱(Nilaparvata lugens Stal)是一种单食性水稻害虫,根据其对水稻品种的危害,可分为生物型1、2、3、4等类型。它对亚洲各国水稻生产造成极大危害。实践证明,利用抗虫品
针对强降雨下Kosman隧道冒顶事故,在现场实时监测基础上,结合离散元数值模拟,分析强降雨下围岩裂隙及渗流的动态变化规律。同时,用能量的方法对围岩破坏过程进行研究,分析围