【摘 要】
:
基于局部差分隐私的高维数据发布研究是当前隐私保护研究领域的热点。然而,现有的研究主要针对含有低维数据的集中式数据集研究,对于含有高维数据的分布式数据集研究甚少,并且,对于数据属性间的关联性缺少考虑,更重要的是,数据集中属性的关联问题会极大地影响隐私保护的效用问题。因此,本文提出基于局部差分隐私的高维关联数据发布研究方案。首先,针对概率统计的随机响应方法无法满足高维数据集充分扰动的问题,本文提出一种
论文部分内容阅读
基于局部差分隐私的高维数据发布研究是当前隐私保护研究领域的热点。然而,现有的研究主要针对含有低维数据的集中式数据集研究,对于含有高维数据的分布式数据集研究甚少,并且,对于数据属性间的关联性缺少考虑,更重要的是,数据集中属性的关联问题会极大地影响隐私保护的效用问题。因此,本文提出基于局部差分隐私的高维关联数据发布研究方案。首先,针对概率统计的随机响应方法无法满足高维数据集充分扰动的问题,本文提出一种结合Bloom过滤器思想和随机响应方法的局部差分隐私方法。具体地,该方法通过多个哈希函数上的Bloom过滤器将属性域中所有属性值哈希到预定义的空间中。然后,制定随机响应规则,以增加扰动过程的随机性。其次,针对EM算法仅适用于低维数据分布的问题,本文提出一种改进方法。该方法结合了 Bloom过滤器的独立性和贝叶斯定理,即,通过Bloom过滤器的独立性,组合每个单独属性的边缘分布来计算联合分布概率。接着,通过贝叶斯定理计算属性集的后验概率。再次,针对高维数据集属性间关联性被忽视导致隐私保护效用较低的问题,本文提出一种基于互信息的关联性度量方法。该方法通过计算所有属性间的互信息来构造一个依赖关系图,接着,结合三角剖分的思想,将依赖关系图转换为含有紧凑属性簇构成的结点树。此外,针对互信息计算复杂度过高的问题,本文提出一种基于熵的修剪方案。该方案通过去除属性域中熵较小的属性对,缩小了整个属性域的大小,并减少了属性间成对计算的数量。最终,结合以上的步骤可以重构扰动数据集,以实现基于局部差分隐私的高维数据发布保护。最后,本文采用开源的三个数据集Retail,Adult和TPC-E进行实验,并通过多种度量标准来评估本文方法的效用,包括扰动前后的平均运行时间、平均变体距离、平均余弦相似度、关联性损失率、复杂度降低率、SVM分类和随机森林分类通过实验的对比和分析,表明本文的算法可以较好的保留属性间的关联性和重构数据集的效用性。图[12]表[10]参[53]
其他文献
自混改以来,山东联通作为山东省主导运营商,持续贯彻“聚焦、创新、合作”的战略部署,主动借力混改伙伴资源,开启了由“传统通信运营商”向“综合信息服务提供商”的转型之路,通过系统化的研究思考,以及体系化的部署策略,推进各项创新业务的发展。重点发力大数据、云计算、物联网、5G应用,不断推进创新业务的动能储备,实现对社会各界的信息化能力输出。本篇论文对山东联通在当下面临的行业间以及行业内部的竞争环境进行分
随着沿海地区工业不断发展,大量未经处理的污水流入海洋,导致赤潮灾害频发。赤潮已经成为破坏我国海洋生态环境最为严重的灾害之一。因此,对赤潮灾害进行准确的预测对保护海洋生态环境具有重大的意义。赤潮形成的原因非常复杂,具有突发性和非线性的特点。传统的赤潮预测方法难以对赤潮进行准确的预测。人工神经网络强大的学习能力以及非线性拟合能力,使得人工神经网络被广泛应用到赤潮预测中。本文基于BP神经网络(Back
近年来,随着移动互联网的快速发展与智能手机的广泛普及,以Instagram、微博等为代表的社交网络服务获得了爆发式增长,极大地提高了用户获取信息的便利性。但社交网络中不断产生的海量文本、图片、音频和视频等多模态信息,也给用户带来了较为严重的信息过载问题。标签机制有助于用户快速检索到其需要的信息,成为应对信息过载的有效手段。然而,由于用户的惰性,社交网络中绝大部分的内容缺乏有效的标签。因此,如何为社
胜任力模型是素质评价的重要工具,构建大学生创业团队胜任力模型能够为评价大学生创业团队创业素质提供参考,对组建和培训大学生创业团队,开展大学生创业教育等多方面工作有重要指导意义。本研究首先通过对大学生创业团队的访谈研究以及网络平台相关报道获取研究资料,之后依据扎根理论研究方法,通过开放式编码、主轴编码和选择性编码等程序提取大学生创业团队胜任特征。在此基础上,提出大学生创业团队胜任特征与创业绩效关系的
硫酯是一类重要的具有生物活性的功能化合物,广泛存在于天然产物和人工合成化合物中。研究硫酯的活化与转化对相关硫酯类功能分子的改性和修饰具有重要的参考价值。然而,关于硫酯的转化反应报道比较少,这可能归结于两点:硫酯键为共轭结构,这增加了硫酯基的活化难度;硫酯键转化过程中硫原子与金属原子容易配位,毒化金属,降低反应活性。本文报道了一个可控活化转化硫酯的方法,利用P(O)-H化合物为磷酰化试剂,在不同条件
GRAPES_GFS模式是中国气象局自主发展的全球中期天气系统,其2.0版本于2016年投入业务使用。虽然GRAPES_GFS模式通过物理过程的完善、四维变分同化系统的改进、卫星资料同化应用的改善和模式动力框架的改进等,其预报质量不断提高,但个别预报仍然出现非常大的误差。当模式在东亚地区144小时预报500 h Pa高度场的距平相关系数(Anomaly Correlation Coefficien
民间委托理财具有广阔的发展与成长空间的同时,也伴随着较高的资金风险和法律风险。由于缺乏类型化与规范化的统一意见,各地法院针对相同或相似案件出现了不同的判决结果。在事实认定上,民间借贷与民间委托理财的混淆问题、民间委托理财合同效力的问题、保底条款的效力问题,均缺乏类型化或规范化的统一认识。在法律适用上,最高人民法院和最高人民检察院从统一司法裁判,打击民间融资活动的角度出发,为规范民间委托理财行为提供
商业银行是金融服务行业的关键部分,客户是商业银行获取效益的重要来源,如何提升客户满意度成为商业银行提高经济效益的关键问题,而客户体验满意度的高低来源于银行提供的服务质量。为促使银行业金融机构进一步完善管理,维护客户合法权益,提升银行客户服务质量,提供银行市场竞争力,提高银行业金融机构客户服务质量工作的规范化和标准化水平势在必行。随着客户对日益增长的精神文明追求,客户对生活水平的追求越来越高,品质追
在全球竞争日益激烈的今天,科技创新能力是保持国家核心竞争力的重要支撑,因此,以技术创新为发展动力的高技术产业受到国家财政、税收等方面政策的大力扶持。在此背景下,高技术产业快速发展,对产业用地需求日益增长,然而,目前城市产业发展存在建设用地紧张,传统产业大量闲置土地、低效企业退出困境等问题,严重阻碍土地资源要素在高技术产业的合理配置,引发高技术产业用地错配问题,并抑制其经济高效产出及生产技术进步,不
线性调频(LFM)信号作为一种具有大的时宽-带宽积的宽带非平稳信号,被广泛应用在主动声呐中以进行目标探测和目标方位(DOA)估计。阵列信号处理技术是实现目标DOA估计的最主要