数据共享中隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：yin2002cn2008

【摘要】

：

随着计算机技术的快速增长,以数字形式提供的关于个体信息的数量激增。信息的方便获取对多数人来说,生活变得更加便捷了。例如,社会网络使得我们随时与朋友取得联系,搜索引擎

【作者】

：

原永滨

【出处】

：

哈尔滨工程大学

【发表日期】

：

2014年期

【关键词】

：

数据共享隐私保护匿名化核密度估计主成分分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的快速增长,以数字形式提供的关于个体信息的数量激增。信息的方便获取对多数人来说,生活变得更加便捷了。例如,社会网络使得我们随时与朋友取得联系,搜索引擎使我们动几下鼠标就可以获取信息财富。然而,大多数有价值的数据都是私有的,人们在享受信息带来的便利的同时也承受着数字信息带给个体的相当大的风险——隐私泄露。各种数据使用的渴望和保护数据的安全和隐私之间存在着一个长期的紧张关系,这就引发了数据共享过程中的隐私保护研究。其主要目标是设计相关的应用模型或者工具,使共享数据在敌对环境下仍然能够有效保护个体的隐私信息,并且数据的效用没有太大损失,从而达到隐私保护与数据可用性之间的平衡。最大化数据的收集与使用,同时阻止敏感和机密信息的泄露是统计科学和计算机科学长期以来的研究主题。本文围绕数据共享中的隐私保护问题进行研究,开发解决该问题的算法,主要在以下几个方面开展研究工作:首先,针对k-匿名模型在一定程度上有效地阻止了链接攻击,但是不能阻止同质攻击和背景知识攻击的缺陷。另外,由于大多数隐私保护数据发布模型采用概化和抑制技术,导致过多的信息损失。因此,本文提出一种增强-p型敏感k-匿名的算法。具体过程为:首先,用近邻法对数据进行划分,生成簇。其次,发布满足p-敏感k-匿名要求的每个簇。文中对算法的正确性和复杂性进行了详细分析,用信息损失和执行时间来检验算法的效果,并对实验结果进行了分析。初步的仿真实验结果表明:基于最近邻搜索的p-敏感k-匿名的增强型隐私保护算法不仅能产生更小的信息损失和合理的时间代价,同时匿名化数据也具有良好的实用性。其次,传统l-多样性匿名实现方法或者效率较低,或者信息损失较大,针对这种不足,提出一种改进的基于聚类的l-多样性算法。该算法首先计算准标识符集合中各属性的方差,其次根据方差确定不同属性在数据相似性计算中的权重,再次根据数据之间的相似性进行约束聚类,最后对同一簇数据进行数据概化,满足l-多样性要求,并从理论上对算法的正确性和复杂性进行了分析。仿真实验结果表明:改进的基于聚类的l-多样性算法可以在实现隐私保护的同时具有更小的数据信息损失和较快的运行效率。再次,针对大规模数据集上的模式分类任务,提出一种基于核密度估计的模式分类隐私保护算法(CPPPW)。该算法首先利用Parzen窗算法对原始大规模训练集服从的概率密度进行估计,然后根据估计的概率密度函数构造la个替换训练样本,其中l为原始样本的数目,a通过10折交叉验证方式确定。充足的训练样本使得核密度估计算法可以较准确的估计密度函数,保障了替换数据集的质量。对CPPPW算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPW算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:三种经典的分类算法在替换数据集上取得了相当的分类精度;同时在替换数据集上进行分类学习,有效的避免了原始数据上的隐私泄露;与ASN算法相比,CPPPW算法不仅具有隐私保护性能,而且分类准确率和召回率均较高,具有更好的模式分类精度。最后,模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的稀疏数据模式分类隐私保护算法(CPPPCA)。该算法利用PCA提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。对CPPPCA算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPCA算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:由于PCA在一定程度上可实现去噪,从而使三种经典的分类算法在替换数据集上取得了更好的分类精度;同时在替换数据集上进行分类学习,有效地避免了原始数据上的隐私泄露;与ASN算法和WT算法相比,CPPPCA算法不仅具有隐私保护性能,而且分类的准确率和召回率均较高,具有更好的模式分类精度。

其他文献

空间数据最优点查询算法研究

近年来,随着互联网、移动通信以及感知定位技术的快速发展与应用,各种移动终端、图像视频采集设备以及社交平台产生了大量的地理位置等低维空间数据,和图像、文本等高维空间

学位

空间数据库空间数据多层网格索引最优点查询组合最优点查询智能决策支持

增强自考学生就业竞争力的难点解析

自考毕业生接受的是非主流形式的高等教育。在求职就业过程中,存在着自信心不足、职业定位模糊的问题,加之针对性的就业指导工作的缺失,使得他们的就业质量普遍不高。为此,作

期刊

自考学生就业竞争力

跨境电商背景下淮河流域文化外宣翻译的解构策略

随着互联网和IT技术的发展,全球贸易已经进入跨境电商时代。地方文化的传播与跨境电商有着紧密的天然联系。跨境电商迅速成为地方文化重要的传播渠道,而地方文化也成为的跨境

期刊

解构主义跨境电商淮河流域文化外宣翻译

论文艺电影中方言的运用技巧

方言作为一种元素出现在电影中,具有不同的功能,使用得当,将会对电影起到画龙点睛的作用。方言作为中国的传统语言文化,具有时代性、地域性等不同意义,就电影语言来说,方言自

期刊

文艺电影方言电影元素人物功能

智能印刷设备的历史回顾、发展现状及有效战略

目的综述智能印刷设备的发展历史及研究现状,为智能印刷设备的发展提供战略参考。方法通过文献综述法回顾印前、印刷和印后等设备的发展历史,总结国内外智能印刷设备的应用和

期刊

智能印刷数字化网络化智慧印厂云工厂

略论中国民族打击乐的传承与发展

我国民族打击乐历史悠久,品种繁多,演奏技巧也相当丰富。它的魅力令许多人为之倾倒。然而随着时代的发展,人们的思想与精神需求也在不断发生变化人们对于打击乐的传承与发展

期刊

民族打击乐传承发展

Zn2+络合促进土霉素在粘土矿物表面的吸附

土霉素(OTC)和Zn2+作为饲料添加剂大量应用于畜禽养殖中,会通过畜禽粪便施用等方式进入土壤环境.研究了它们在粘土矿物上的吸附行为及其相互影响.结果发现,阳离子交换量大的

期刊

土霉素锌离子络合键桥粘土矿物

从互文视角谈电影《苏菲的抉择》与狄金森诗歌

如今,越来越多的影视作品会将诗歌引入,因而影视和诗歌呈现出＂互文性＂特征。在美国著名女作家狄金森的1700余首诗中,有1/3左右是写死亡,可见她对死亡主题的审美偏爱。其中,她的

期刊

狄金森诗歌《苏菲的抉择》文本互涉推镜头

加强未成年人思想道德建设的实践思考

加强和改进未成年人道德建设，是教育工作的重中之重，更是提高国民整体素质的重要途径。要增强未成年思想道德建设的针对性和实效性，必须要以德育为目的，强化课堂教学、重视家庭德

期刊

德育认知能力课堂家庭社会责任

鲁连蹈海典属还家——谈画家萧云从的诗歌题跋

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

题画诗山水画

数据共享中隐私保护方法研究

与本文相关的学术论文