基于聚类模型的非显式隐私保护方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息爆炸的今天,各行各业每天都产生大量的数据,这些不同的数据构成了一个“数据集市”。互联网高速发展与普及,数据大规格集中管理与推广,激发了人们对数据公开和数据共享的需求。然而,大量不同的数据不断地被发布出来,这些数据或多或少会泄露用户的隐私,同时这种泄露又是不可避免。因此,如何解决数据发布的质量和隐私保护这对矛盾,成为科研工作者们一个迫切需要研究的课题。  传统的基于泛化分层的隐私保护方法,都是以数据块或者等价类的方式来保护隐私。这类保护方法通过数据块的方式,增加攻击者推断的成本,减少攻击者的后验知识。它们一般只考虑局部数据块,所以往往能够简单、直接地保护到用户的隐私。这种局部保护方法的弊端是,没有考虑到发布数据的全局损失。这种损失主要是体现在两个方面,首先是没有考虑全局的损失,不能使得全局损失最少;其次是没有考虑数据整体模型的变化。而本文正是针对这两个问题,提出了两种全局保护的方法,一是提出了一种改进的t-逼近算法;二是提出了基于聚类模型的隐私保护方法。  首先,针对 t-逼近算法未能考虑抑制过程对发布数据全局损失的问题,本文提出了一种改进的t-逼近算法,在原始的t-逼近算法的基础上增加约束d,为了保证 d最小,在抑制的过程中每次选择损失最少的记录,从而减少全局隐私的损失;  其次,针对泛化分层算法未能考虑敏感属性对发布数据整体模型的聚类影响问题,提出了基于聚类模型的隐私保护方法,该模型是一个基于维度的改进的高斯混合模型。改进的有限混合模型将混合成分进一步拆解成三个混合成分,从而增强模型的区分能力;通过引入边际似然函数,算法具有模型选择能力;基于维度的聚类模型,具有很强的特征选择能力;通过限制敏感属性在聚类过程的权重,使得聚类模型和原始数据模型保持一定距离,从而可以对发布数据起到全局保护。  实验结果表明:改进的t-逼近算法中新增的约束 d具有t类似的约束力;基于维度的改进的高斯混合模型不仅考虑了隐私保护,同时具有很强的特征选择能力。
其他文献
图形用户界面(GUI)是当今软件中的一个必不可少的组成部分,它是软件底层代码的前端并使得软件易于使用,现在图形用户界面已经被广泛地使用。与传统的软件相比,GUI软件具有许
P2P(Peer-to-Peer)网络因其端到端特性,可避免客户/服务器模型的服务瓶颈问题,因而成为下一代互联网研究的热点。在P2P网络中,如何对资源进行搜索和定位一直是该领域中的关键
随着社会的发展,越来越多的企业和政府部门都在寻求跨部门和跨企业的合作。但由于各企业和部门之间应用系统存在着异构性,造成的数据孤岛现象,部门间数据无法有效整合并及时
协同CAD是CSCW技术在CAD方面的应用之一,它已成为新时期产品设计的主要方式之一。目前虽然有相应的系统出现,但由于各方面的局限性,这些系统还不完善。因此本文就协同CAD中的
发现和维护网络的拓扑结构对网络管理来说至关重要。随着网络技术的高速发展和新设备层出不穷,用传统的C/S管理体系来发现大规模网络的拓扑结构变得日益困难。本文在研究了传
学位
随着计算机以及信息技术的发展,生物特征识别技术的研究受到了广泛的关注和探讨。相对于其他的生物特征鉴定技术,例如人脸识别及虹膜识别,指纹识别具有独到的优点,具有很高的实用
人体和人体器官的数字化建模及以此为基础展开的仿真研究是当前国际生物医学领域的前沿课题。眼睛作为人体中一个极为精密且十分重要的器官,其数字化模型的建立与在此基础上
学位
近几年来,高校规模不断扩张,万人以上的大学已不在少数,另一方面,高校的数字化建设也取得了一定的进步,校园网已初步建成,学校的各个部门都积累了大量的信息数据。这些数据如