基于边相关贝叶斯网络的差分隐私数据发布方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:luzihao009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
差分隐私保护(DP)提供了一种严格的和可证明的隐私保证而且假定攻击者有任意的背景知识,这种技术确实和之前的在隐私保护领域的工作有很大区别,而且随着苹果在2016年全球开发者大会上宣布苹果已经早就使用了差分隐私保护技术来保护IOS用户的隐私,更多领域的研究者开始聚焦这项新技术。所以,数据发布旨在保证数据的安全和隐私,差分隐私保护下的数据发布已经得到迅速的发展。因为差分隐私不对攻击者的背景知识做太多限制,所以这些年得到迅速的发展。通常情况下,很多关于差分隐私保护的研究都假设数据集中的元组属性之间是不相关的,或者说是相互独立的。但是相关数据集和不相关数据集在隐私预算的开销是有差别的,也就是说,差分隐私保护在有关联的数据集上的隐私保护还有很大的研究空间。本文旨在研究通过有权重的贝叶斯网络来保护具有密切关联的统计数据库的数据信息,本文提出了一种基于边相关贝叶斯网络下的差分隐私数据发布方法。首先通过贝叶斯网络来获取高维度数据集上主要属性之间的关系,得到初选属性集,然后通过TBT算法进行二次筛选得到低维度属性集。接着,通过测量低维度数据集上的属性结点之间的距离来获得每条边的PF向量,然后对PF向量进行标准化处理,再引入边的相关性来界定这些关键边的密切程度,从而得到基于边相关的敏感度;最后在添加噪声的过程中,使用NDR算法在低维度的数据集元组上使用全新的边相关敏感度的来控制噪声发布和规模以达到用尽可能少的隐私预算来达到最大化数据可用性的目的。然后,通过实验,在三个数据集上进行统计查询测试,用MAE和准确率指标来评价算法,通过对比发现,本文提出的方法相比于之前的基准算法下的贝叶斯网络有更优异的表现。本文提出的HDR算法既能够保证数据发布的隐私性,又能保证数据发布的可用性,可以达到较好程度的平衡。本文提出的基于边相关的方法能够确保隐私开销更小和更安全。通过贝叶斯网络得到一个数据集中的关键属性集,达到降低数据维度的目的。通过边相关来重新界定关联数据集元组之间的相关度,来获得新的隐私开销和敏感度参数。基于边相关的HDR算法在实现了数据的高隐私保护,同时也确保了发布后的结果可以被安全的使用。
其他文献
大菱鲆是我国重要的水产养殖鱼类,具有极高的经济价值和良好的市场前景。但与此同时,由微生物引起的大菱鲆腐败变质也是十分严重。相关研究表明,腐败菌的群体感应(Quorum-sen
具有弹性波带隙特性的周期性复合材料或结构称为声子晶体,声子晶体概念的提出是源于当弹性波的频率位于声子晶体的禁带区间时,弹性波的传播将受到抑制,被称之为带隙特性,此外声子晶体在传输方面还具有负折射、聚焦、非对称传输,声波导等多种属性,有着备受瞩目的应用前景。带隙特性作为声子晶体研究中的核心问题,一直是研究中的重点。本文在散射体的边界设置凸起单元,利用有限元法研究了其对声子晶体的带隙特性和传输行为的影
隐喻研究是近代语言学界重要研究领域之一。隐喻不仅是语言修辞手法,更是人们理解世界的工具,即隐喻是人类认识世界的一种重要方式。隐喻广泛应用于外交领域及社会传媒领域。运用隐喻一方面可生动形象地阐述立场,表达情感;另一方面避免言词生硬,不利于交际。2016年6月,英国全民公投决定“脱欧”;2020年1月31日,英国正式脱离欧盟。就英国脱欧事件而言,各类相关新闻报道中大量使用了隐喻运用隐喻有助于受众把握政
背景和目的肥胖影响和危害人的健康。虽然运动已经成为公认的有效减肥手段,但是在实际的运动减肥中,减肥效果却呈现明显的个体差异。其原因除与遗传基因有关外,很可能还与自发性体活动等改变有关。有研究认为运动会使人的生活方式发生改变,降低自发性体力活动水平,造成人体能量消耗的代偿,使运动减肥效果降低,然而也有研究指出运动不但不会降低自发性体力活动水平,运动反而促进了人精力充沛,在运动以外还增加自发性体力活动
在互联网日趋普及的今天,大数据、社交网络等计算机技术的发展使推荐算法的研究有了质的突破。用户通过互联网能够摄取自己需要的内容,但是从庞大的数据库中及时的摘取有效内
近些年来,机器翻译备受学界及相关领域的关注。与人工翻译相比,机器翻译极大地提升了翻译的效率,但由于机器翻译译文无法体现情境语境和文化语境,译文质量也颇受质疑。译后编
随着全球经济的发展,人类的平均寿命延长,老龄人口增多,老龄化成为全球性问题。老龄化相伴随而来的是大量的养老需求,年龄在60岁以上的老年人中,失能群体将会产生非常强烈的
信息隐藏是指把秘密信息嵌入在数字化文本、图像、音频和视频等载体,以不被察觉的方式,达到隐秘通信的目的。数字视频具有数据量大的特点,通常编码后进行存储和传输。因此,结
随着关联数据和语义网技术的出现,关联数据越来越成为网络时代研究的热门话题,它突破了传统的异构性、分布式、封闭性数据集的形式,对语义网这一领域的发展起着不可估量重要
当前许多应用需要对统计数据进行持续性发布来达到检测的目的,这些应用包括实时交通状况分析、疾病检测和社会上的一些趋势分析等等,这种数据模型被称为数据流。数据流来源于