微数据发布中提高匿名数据可用性的匿名化方法研究

被引量 : 0次 | 上传用户:wmf_china
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微数据在数据分析和科学研究等领域发挥着越来越重要的作用。因此,越来越多的组织机构收集并共享微数据,然而微数据的发布和共享会泄漏包含在数据中的隐私信息。因此,微数据发布中隐私保护问题近几年来成为数据挖掘领域的研究热点。目前在微数据发布的隐私保护领域中,匿名化技术是该领域中的主流方法,其主要思想是通过对原始待发布数据的处理,减少个体身份被攻击者唯一标识的概率,从而实现个体的隐私保护。本文通过结合噪音技术、模糊粗糙集等领域知识,对微数据发布中隐私保护在匿名数据可用性上进行了研究,主要工作如下:(1)提出了将泛化和噪音技术相结合的隐私保护匿名化方法的研究。在现有的实现“匿名模型的隐私保护方法中,泛化技术的应用相当广泛。尤其是在数据分布均匀的状况下,其数据匿名效果较好。但当数据规模不是很大,分布不均匀的情况下,会出现数据泛化程度过大,匿名数据可用性过低的问题。针对这个缺陷,本文提出了噪音和泛化技术相结合的GN匿名方法,该方法通过在泛化过程中添加噪音降低泛化程度;并提出噪音添加模型,保证添加噪音后的匿名数据中敏感属性分布与原始数据基本不变;还提出了实现算法GN-Bottom-up算法,且实验证明GN方法比原始一般匿名方法能有效降低泛化的程度,提高数据的可用性。(2)提出了基于模糊粗糙集的加权聚类隐私保护方法的研究。在现有隐私保护方法产生的匿名数据中,普遍存在针对聚类应用的可用性差问题。针对该问题,本文提出一种考虑属性权重的隐私保护方法(FSRS)。其中通过基于模糊粗糙集的客观权重分配方法,得到属性权重以更好进行聚类泛化,达到提高数据聚类应用的目的。本文还通过Weka中聚类效果分析验证该方法的有效性。(3)提出了基于粗糙集理论的匿名化方法的研究。在工作点二的研究基础上,本文提出了一种改进后考虑属性权重的隐私保护方法(PBRS)。其中各个属性的权重由粗糙集中系统属性重要度定义的方法获得。本文也通过Weka中聚类效果分析验证该方法的有效性。
其他文献
纳米铁颗粒是一种用于原位修复地下水和突发污染的还原性金属材料,比表面积大、反应活性高,已成为研究的热点,但纳米铁易团聚,对污染物吸附性不好的缺陷限制了其应用。本研究用天
社区体育公共服务是指为了满足社区居民的体育公共需求,向整个社区和居民提供的所有服务和体育产品。本文以社区居委会为视角,对社区内体育公共服务现状进行阐述,指出社区体育公
中小股东是相对于大股东而言的在公司法上提出的一个概念。中小股东们在公司的权利配置和构架中属于弱势群体。随着公司发展的这一两百年来,公司中的大股东们滥用其优势地位,
随着国民经济的快速发展,汽车的数量也随之迅速增加。然而于此同时,人、车、路之间的矛盾也日益加深。为了解决这一矛盾,智能交通系统(ITS)概念就应运而生。本文选取智能交通系
近几年发现的抑制骨骼肌生长的负调控因子--肌肉生长抑制素(Myostatin, MSTN),在遗传突变后,导致基因功能的失活,进而引起动物肌肉过度发育,肌纤维数量增多,直径增加,肌肉量
余秋雨散文的艺术创新董伟建自80年代后期以来,余秋雨先生陆续发表了以“文化苦旅”为题的系列散文,结集出版了《文化苦旅》、《文明的碎片》、《秋雨散文》等。这些散文集的出版
随着CUBA联赛的影响力在我国高校中日益扩大,随之而来的经济效益和体育带动效应也逐渐显现,与此同时也对我国高校高水平篮球队伍的建设与发展提出了更高的要求。河南省目前共有
1992年中韩建交后,朝鲜族跨国流动骤然升温,规模越来越大。朝鲜族凭借其跨界民族的优势,以探亲、劳务输出、涉外婚姻、出国留学等各种形式流往国外。毫无疑问,跨国人口流动群
本文从解决工程实际问题出发,应湖南新湘液机械设备有限公司要求,针对公司生产的SPZ5型水平垃圾压缩站出现的问题,进行了分析与局部结构的再设计。主要做了以下工作:1、就SPZ5
现阶段,机械产品正在朝着高速、高效、紧密、可靠、低振动、低噪音、轻量化和自动化方向发展,对产品的要求越来越高。泥浆泵齿轮传动系统是泥浆泵重要的组成部分,其齿轮参数决定