支持差分隐私保护的聚类优化方法研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:lwj2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和科技的发展,互联网中的数据呈现指数式爆炸增长,这些数据不仅来源广,而且种类多,数据分析者常常利用数据挖掘的方式来获取其中的有用信息,聚类分析作为数据挖掘的一个重要分支,也常被用来对数据进行处理计算。然而,因为人们对个人隐私信息的日益关注,对其进行不同程度的数据分析也带来了迫切需要解决的隐私泄露问题。作为新兴的隐私保护技术,差分隐私机制常被当作保护聚类分析过程中数据隐私的一种有效方式,但与此同时,如何在保护的过程中平衡额外噪声的添加及聚类结果的可用性,已经成为目前亟待解决的热点研究问题。因此,针对以上问题,本文主要的研究工作有:(1)针对K-means聚类算法中出现的隐私泄露问题,已有的研究提出利用差分隐私机制来保证聚类分析过程中隐私信息的安全,但与此同时,该算法因为噪声的添加存在聚类结果可用性不高的问题。因此,本文在该算法的基础上提出改进,在保证K-means聚类算法过程安全性的同时,从离群点的检测以及距离计算方式入手,解决在差分隐私机制下K-means算法聚类结果效用不高的问题,并对文章所提方案工作原理和具体构造进行详细描述,最后通过实验对改进后算法的性能进行验证,实验结果表明,与已有的差分隐私K-means算法相比,我们所提算法在保证隐私安全的前提下,聚类结果的可用性得到了很大提高。(2)针对单一K-means聚类算法面对大规模数据集效率不高以及在MapReduce框架下对数据集进行聚类分析同样存在的安全问题,我们选择在(1)的基础上将差分隐私保护机制应用在MapReduce框架下的K-means算法中。主要核心是结合差分隐私机制中的并行组合及串行组合等性质,提出一种支持差分隐私保护的MapReduce框架下的K-means算法,通过合理的设置来保证其中隐私信息的安全。然后对算法进行安全性分析,并通过实验验证,该算法能够有效解决在MapReduce框架上运行K-means聚类算法时存在的隐私泄露问题,同时提升聚类算法的效率以及保证聚类结果的可用性。
其他文献
从大叶醉鱼草的叶子中分离得到一株内生真菌LL3026,以卤虫模型测稀释后发酵液的杀虫活性,结果表明LL3026发酵液杀虫活性较强,且温度、光照及紫外照射对LL3026发酵液杀虫活性
只有增值税,才最适宜作为结构性减税的主要对象。$$  “营改增”是当前中国推动经济结构调整的重要手段。$$  作为“营改增”一个后续安排,便是相应调低增值税标准税率。$$
会议
针对电网发展过程中可能出现的复杂暂态功角失稳现象,提出了用于系统安全稳定分析和控制的暂态功角弱稳定模式的概念及其辨识方法,解析了紧急控制导致弱稳定模式演化为主导失
与其他近代哲学家相比,康有为对汉唐哲学关注较多。在对汉唐哲学的审视和探究中,康有为热切关注孔学与汉唐哲学的关系。通过对孔子、孟子和荀子思想在汉唐传播状况的透视,他
半说半唱的京韵大鼓是我国北方鼓曲中人们喜闻乐见的曲种,它是以木板大鼓为基础吸收子弟书形成的,至今已有百余年历史。半个多世纪以来,曲艺界对京韵大鼓音乐和历史研究似无
我国资本市场的融资和监管主要依赖于以会计利润为基础的财务评价和监控体系,能否取得或保住上市资格,以及进行配股再融资在很大程度上取决于企业对外报告的账面利润。因此,企业
<正>这两年,什么最火?毫无疑问,是短视频。不管是等公交、坐地铁,还是逛街、用餐,几乎人人都在盯着手机"刷"短视频。根据中国互联网络信息中心(CNNIC)发布的第44次《中国互联
城市道路绿化,是城市园林绿地系统的重要组成部分,它是城市文明的主要标志之一.街道绿化搞好了,不仅美化了街景,而且还有净化空气、减弱噪音、减尘、改善小气候、防风、防火
重庆市石柱县是国家扶贫工作重点县,贫困范围广、程度深,贫困发生率高,扶贫开发任务十分艰巨。龙沙镇中海村是该县85个整村脱贫村之一。龙沙镇将扶贫档案建设管理工作作为打
结合MATLAB强大的数据分析处理功能,针对测绘数据的特点,探索MATLAB在大地测量平差、遥感数据、GPS数据以及开采沉陷等测绘数据处理领域中的应用方法,并通过实例说明MATLAB程