基于隐私保护聚类的分析和研究

被引量 : 0次 | 上传用户:xianghh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着计算机技术、存储技术和互联网络的迅速发展,各个行业已经积累了海量的数据。人们迫切的希望能从这些海量数据中发现有用的信息来指导相应的决策制定。数据挖掘技术作为一种强大的数据分析手段,可以从数据中提取潜在的知识(模型或规则)。但是传统的数据挖掘技术中,由于原始数据在挖掘时并没有进行任何的处理,导致在发现知识的同时,会不可避免的侵犯到隐私敏感数据,因此敏感数据的隐私保护问题得到越来越多的关注。目前已有很多工作研究如何在保护数据隐私的前提下提高数据挖掘结果的准确性。隐私保护的数据挖掘致力于提供可用有效的方法,这些方法可以计算出一个较好的数据挖掘算法的结果,又不暴露隐私信息(至少是一些敏感信息)。现存的隐私保护的数据挖掘涉及到的数据挖掘领域主要有关联规则、分类和聚类。已有的隐私保护的数据挖掘工作主要集中在关联规则和分类算法上,而隐私保护的聚类算法研究则相对较少。本文主要研究基于隐私保护的聚类方面的问题,主要内容如下:研究了针对数据水平分割的分布式系统下的隐私保护问题,并在此系统下设计了一种新的向量内积安全计算协议和矩阵乘积安全计算协议。通过结合多方安全计算协议和随机正交矩阵变换扰乱方法,提出了一种新的混合式隐私保护算法。理论分析和实验结果表明,该算法可以在保护数据隐私的同时,实现数据挖掘结果准确性的零丢失。针对数据集中分布的集中式系统下的隐私保护问题,提出了一种基于谱图理论的隐私保护聚类算法。对谱聚类的原理-谱图理论进行研究,将之推广到集中式数据分布环境中的数据发布问题上。由于在谱图理论中,数据的聚类问题可以转换为图的划分问题,并且通过图的谱即特征向量,给出图划分问题的近似最优解。所以,将原始数据进行预处理后,求解拉普拉斯矩阵的特征向量矩阵,并将之发布给第三方,由第三方进行聚类挖掘。通过试验证明,该算法可以在保护数据隐私的前提下,保证聚类效果的有效性。此外,为了有效解决谱聚类中规模参数的选择问题,我们提出了一种基于邻居排序的自适应谱聚类算法。这种算法可以自动的计算规模参数,并使点之间的相似度随着距离的增加下降的更快。
其他文献
电视“真人秀”节目自2000年引进中国以来,已经历了十年的本土化历程,期间,它不断掀起中国电视娱乐化浪潮,提升了中国电视的整体收视率,引领了中国电视产业化的改革潮流,逐渐
不管是地缘关系还是历史关联,作为邻邦的日本对中国的影响不可小视。日本是世界传媒大国,大众传媒在日本国内政治和外交决策中发挥着举足轻重的作用。中日邦交正常化30多年来
在高等职业技术教育中,高等数学是一门必修的公共基础课。针对当前高职数学教学与学习现状,从高职数学在人才培养中的作用、教学改革出发点、教学模式等方面,对高职数学教学改革
养生文化是中国传统文化花园里一株艳丽的奇葩,它以其悠久的历史而香泽千年,芳流不绝.各种养生思想,内容丰富,流派众多.其养生论著更是琳琅满目,蔚为大观.但绝大多数养生文献
随着水利工程建设法规的健全,在工程建设管理中贯彻项目法人责任制、招标投标制、建设监理制,所有管理行为均以合同为依据。大中型水利工程往往由各类不同的单位工程组成,所
<正>植物是园林中唯一有生命的要素,是园林生态系统中唯一的生产者,是生态文明建设的基石。与植物规划设计有关的名词比较多,包括种植设计(Plantingdesign)、植物配置(plant
改革开放以来,厦门经济特区认真贯彻落实邓小平"科学技术是第一生产力"和"发展高科技,实现产业化"的战略思想,把发展高新技术产业作为全市经济发展战略的一个重要组成部分和
旅游产品结构性改革是旅游业供给侧改革的重要内容之一。基于实证研究发现甘南藏族自治州旅游产品存在强季节性、盲目重复建设、文化内涵挖掘层次低、旅游产学供需错位等结构
为了使热轧TA10钛合金板材的塑性指标能够满足后续爆炸复合工艺的要求,对3 mm厚热轧TA10钛合金板材进行了不同温度和不同保温时间的退火热处理,研究退火温度和保温时间对其组
<正>鲁迅先生的《拿来主义》是一篇著名的杂文。作者在文中批判了国民党反动派的卖国主义政策和一些人对待文化遗产的错误态度,阐明了应该批判继承和借鉴文化遗产及外来文化