匿名化算法中发布数据的可用性提升研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:a1lan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐私保护数据挖掘(Privacy Preserving Data Mining,PPDM)研究旨在运用隐私保护技术,在数据挖掘的全过程中避免隐私的主动泄露或被动泄露,同时尽可能地避免隐私保护技术对数据挖掘结果造成的影响。匿名化是PPDM研究中的一个重要分支,匿名化技术利用匿名化算法转化原始数据集,让其满足特定的匿名化模型,以此达到数据安全发布的标准。为了避免匿名化算法对原始数据集造成过大的信息损失,使得发布数据集失去挖掘效用,本文提出了两个发布数据可用性较高的匿名化算法,分别是HU-MDAV算法和MILGen算法。记录间距离度量是基于微聚集的匿名化算法中最关键的部分之一,可是目前大部分的相关研究要么忽略了记录中的类别型准标识符,要么对于类别型准标识符值间距离度量模糊,为此本文提出了一种更为准确简便的记录间距离度量公式,并依据此度量提出了适用于小规模数据集的HU-MDAV匿名化算法。该算法有效地提升了等价组中记录的同质性,最大限度避免了匿名化带来的信息损失。为了适应大规模数据集的匿名化,本文提出了基于泛化/抑制的匿名化算法MILGen,该算法首先通过准标识符的值泛化层级构建解空间,然后依据度量数据可用性损失的指标MI Loss在解空间中搜索满足匿名化模型的数据可用性最高的解,MI Loss通过设置可用性权重的方式让对数据挖掘比较重要的准标识符被较低程度泛化,以此来避免发布的匿名数据集的使用效用降低。通过在标准数据集Adult上实验,证明了HU-MDAV算法和MILGen算法在提升发布的匿名数据集可用性方面的有效性。相较于采用传统距离度量的MDAV算法,HU-MDAV算法能将发布数据的效用提升至少0.1%~0.7%,而算法的执行时间只有略微增加。相较于使用传统可用性度量的匿名化算法,MILGen算法能将数据效用提升0.2%~1.1%,并且算法的执行时间并未改变。
其他文献
目的 探索LL-37对膀胱尿路上皮细胞跨膜屏障功能破坏的具体作用,构建适于体外研究间质性膀胱炎(interstitial cystitis,IC)的细胞实验模型。方法 分别用不同浓度的LL-37处理人尿路上皮永生化细胞SVHUC-1,通过跨上皮电阻测量仪测量跨上皮细胞电阻,CCK-8检测细胞增殖活力,流式细胞仪检测细胞周期和钙离子浓度,RT-qPCR和WB检测葡萄糖胺聚糖(GAGs)关键成分硫酸乙
期刊
<正>高危儿管理是我国儿童保健工作的重要内容[1],是促进儿童早期发展和综合干预的重要环节之一[2]。儿童的发育与发展是遗传和环境共同作用的结果,受到风险与保护因素的共同影响。高危因素使儿童无法实现最佳发展潜能的风险较大,而保护因素可使高危儿发挥潜能,减少发育偏异等风险。早期识别、定期监测、科学指导干预、及时转诊和多学科诊治等服务将明显促进高危儿早期发展、改善高危儿预后、减少伤残、提高人口素质。
期刊
三乙醇胺(TEA)作为水泥混凝土中常用的早强组分,对早期强度发展有显著的促进作用。近年来随着喷射混凝土和液体无碱速凝剂的快速发展,三乙醇胺以其优良的早强特性逐渐得到广泛应用。然而,不同条件下由三乙醇胺制备的速凝剂性能不尽相同,甚至截然相反,其对水泥早期水化的影响规律及作用机理亟待明确。本工作制备了不同TEA比例的液体无碱速凝剂,从凝结时间、早期强度、水化放热行为、水化物相、热分析等方面详细研究了液
期刊
近些年来,图神经网络已经成为推荐系统领域的热门研究方法,人们提出了许多基于图神经网络的推荐模型,以利用高阶邻居的协同信息进行更好的推荐。然而这些现有的工作主要依靠图神经网络在原始的用户-物品二部图上推导出用户和物品的隐含向量。因此,他们都需要缓解由于二部图的异构节点所造成的语义鸿沟问题,此外,这些模型在解决数据稀疏性的问题上有所欠缺。针对这些问题,本文提出了一种新的序列感知的对偶神经网络推荐模型。
学位
目前,我国太阳能热水器产业规模庞大,产销量与保有规模多年跃居世界首位。国内生产厂家超过4000家,行业产能过剩较为严重,由于集热器技术缺乏创新,占80%以上的中小型太阳能企业被迫陷入价格战。新冠疫情暴发以来,原本就不景气的太阳能热水器行业遭受较大冲击,当前针对该行业处于疫情发展期的营销策略研究比较匮乏。本文以TY公司为研究对象,采用访谈、个案研究等方法,探究其太阳能热水器市场营销策略。从4P的角度
学位
近年,新冠疫情肆虐全球以后,市场环境的VUCA特性更加突出,商业环境中“灰犀牛事件”“黑天鹅事件”频频出现,但是随着技术的发展,也同步孕育出了诸多机遇。在风险与机遇并存的时代,人才竞争成为了规避风险、把握机遇的重要环节,如何制定前瞻性的人力资源战略、如何进行合理的人力资源规划,成为了人才竞争的关键,也成为了制造型企业保持竞争优势、持续发展的关键。G公司是国内具有典型代表意义的消费类电子制造型企业,
学位
随着我国经济的快速腾飞,金融行业不断深入发展,私人银行业务在我国拥有广阔的前景。我国高净值客户数量不断增多,各大银行的私人银行业务蓬勃发展,私人银行客户成为了各大银行竞相争抢的重要客户资源。随着各大头部银行不断更迭产品与服务,其他银行的客户流失问题逐步显现,越来越多的客户更倾向选择头部私人银行作为自己的财富管理银行。PA银行私人银行业务规模较小,如何与头部银行竞争,获得更高的市场份额,减少客户流失
学位
<正>一、前言随着数据时代的到来,大数据等新技术的广泛应用,企业数字化革新如火如茶,大量的数据被生产、共享及应用,创造出巨大的社会价值。大数据技术运用助力各行各业开展创新变革,进行价值创造。数字经济是当前新经济的主流趋势,企业数字化转型是“十四五”发展规划的主要任务,
期刊
随着深度学习的快速发展,其安全问题也逐渐备受关注。已有研究指出深度神经网络极易受对抗攻击的危害,通过对原始样本加入精心构造的噪声,可误导模型输出完全错误的结果,其中加噪后的样本被称为对抗样本。现有工作表明对抗样本具有迁移性,即利用某个模型优化得到的对抗样本也能以一定概率成功误导其他模型,这使得攻击者可以基于本地的替代模型来优化生成对抗样本,从而实现对目标模型的黑盒攻击。然而,传统对抗攻击算法生成的
学位
目的 观察追风透骨胶囊对兔膝骨关节炎(knee osteoarthritis, KOA)模型关节软骨退变的干预作用,并基于Toll样受体4(Toll like receptor 4, TLR4)/髓细胞分化初级反应蛋白88(myeloid differentiation primary response protein 88, MyD88)/核因子kappa-B(nuclear factor ka
期刊