【摘 要】
:
聚类(Clustering)是一种用于探索数据结构的数据分析技术,它能够根据数据特征进行分类,将具有相同或相似性质的数据划入同一个子组(簇),不在同一簇中的数据通常其性质是不同的。聚类分析是基于特征的基础上找到样本的子组,或是在基于样本的情况下找到特征的子组。在聚类分析中引入差分隐私技术是当前研究领域绕不开的热点。差分隐私是一种数据失真技术,能够抵御任何背景知识下的攻击,且不受数据集大小的限制。在
论文部分内容阅读
聚类(Clustering)是一种用于探索数据结构的数据分析技术,它能够根据数据特征进行分类,将具有相同或相似性质的数据划入同一个子组(簇),不在同一簇中的数据通常其性质是不同的。聚类分析是基于特征的基础上找到样本的子组,或是在基于样本的情况下找到特征的子组。在聚类分析中引入差分隐私技术是当前研究领域绕不开的热点。差分隐私是一种数据失真技术,能够抵御任何背景知识下的攻击,且不受数据集大小的限制。在诸如聚类分析等数据挖掘领域,差分隐私技术可以有效减少个人隐私的暴露,因此差分隐私保护算法的研究具有重要意义。其难点在于保证数据隐私的前提下获取性能最优的数据挖掘模型。本文的研究重点是如何更好地保护聚类算法的隐私以及提高相应聚类算法的可用性,包括:针对预测推荐算法在聚类分析过程中的隐私泄露问题,提出了一种基于指数机制的差分隐私保护服务质量预测推荐算法,该算法基于改进的覆盖算法,根据相似用户对目标用户缺省的Qo S值进行预测并推荐。本文既通过理论分析了该算法满足ε-差分隐私,又通过实验证明该算法显著提高了服务质量预测精度。针对k-means++算法全过程隐私性不足问题,提出了一种基于Laplace机制的差分隐私DPk-means++聚类算法,且为进一步提高算法可用性,研究并提出一种高效的DPk-means-ev算法,该算法可以改善初始中心点的选取,避开了设定k值时的盲目性和选择初始化中心点的敏感性,实验证明算法有效提高了聚类的效率与可用性。针对k-means算法在实际使用过程中的不收敛问题,研究并提出了一种在交互环境下向真实质心注入差分隐私的新框架,在聚类的迭代过程中对质心运动进行定向控制,再注入噪声以实现收敛。理论验证了该方法的关键性质,并证明了它的迭代次数最多是Lloyd’s k-means算法的两倍。实验结果表明,在相同的差分隐私保证下,该算法在保证收敛的同时,在交互环境下比现有的差分隐私算法有着更好的聚类质量。
其他文献
换流站光测量系统远端模块的主要作用是实现该系统中电信号和光信号的相互转换,作为高压直流输电系统的核心设备,其运行可靠性对电力系统的安全稳定运行具有重要意义。然而,由于远端模块运行环境较为复杂,近年来因远端模块导致的超高压直流输电公司光测量系统故障频发。但目前对其运行状态检测及故障诊断技术的研究在领域内仍属空白,其失效趋势无法预测,运行状态难以判断,运维规范相对匮乏,设备全寿命周期管理无技术支撑。因
在互联网时代,人们获取图像的方式主要是通过搜索引擎在数据库中进行检索,但由于一句话可能对应很多不同的图像,所以很难找到想要的图像。随着人工智能技术的突破创新,文本到图像生成任务也具有了一定的可行性。文本到图像生成是一项涉及了自然语言处理与计算机视觉的跨模态任务,该任务的目标是不仅要保证生成的图像真实,而且要保证生成的图像与给定的文本描述语义一致。近年来,研究者以生成对抗网络(Generative
随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不同个体的学习能力有差异,而且会存在优先级高的对象个体,如何进行引导式自动学习,以提高学习的效率和质量,减少不必要的时间和物力消耗,已成为学术界和工业界共同关心的问题。为了解决传统式引导式学习方法的弊端,优化学习资源分配,本文在基于均匀采样学习算法和基于贪婪策略学习算法的基础上,
近年来,随着基于5G的物联网的发展,无线终端数量及其产生的数据呈现了爆炸性的增长。面对计算密集型的深度学习应用,集中式训练深度模型对计算性能和通信连接都提出严峻的挑战,迫切需要把计算资源前移至接近数据源的节点,以分布式的方式训练深度模型以降低对计算和和通信的资源需求。本文使用的分布式技术是交替方向乘子法(Alternating Direction Method of Multipliers,ADM
歌剧是集音乐、舞蹈、戏剧、文学、舞台艺术于一体的综合性艺术形式,产生于16世纪末的意大利。经过我国几代老艺术家不断地辛勤探索,在吸收外来艺术形式的同时与我国传统文化相结合,创造出具有中国民族特色的中国歌剧,《悲怆的黎明》作为新时代的一部大型歌剧,该剧的成功同时也激励了我国民族歌剧的艺术创作。《悲怆的黎明》描述了东北某公学一群热血青年为了新中国成立在战火中浴血奋战的悲壮历程,歌剧中的革命先辈们成就大
随着时代的发展,生产力的提高,有许多人从繁琐的工作中解脱出来,这一切则归功于工业机器人的发展。同时工业机器人技术也随之大幅度提升,人机交互技术也得到了快速的发展,其应用范围也更加的广泛,人机交互的方式也更加符合人与人之间的交互方式,如人脸识别、可对话的智能音箱等。这些交互方式大大减少了人体操作机器相关指令的操作,使人体能够更加自然的与机器进行交互,大大提升了人类使用机器时的舒适性。人机交互技术在可
近年来,得益于4G技术的普及、5G通讯技术日趋成熟以及移动智能设备的完善,视频数据与日俱增。如何从海量视频数据库中快速检索到用户感兴趣的视频已经成为信息化时代的一个有意义的课题。传统的基于文本关键字的视频检索方法难以满足用户日益增长的需求,因此,基于内容的视频检索方法应运而生。本文对基于内容的视频检索的关键技术进行了深入研究,主要包括关键帧提取、特征提取与表示。在关键帧提取方面,现有的算法存在以下
软件定义网络是一种新兴的网络技术,它能够消除传统分布式网络架构的弊端。然而,在这种新兴的架构中,网络安全问题进一步增多,流表溢出攻击是其中一个非常严重的问题。由于这种攻击与传统的分布式拒绝服务攻击有着不同的特征,目前主流的检测系统对这种攻击没有很好的监测效果。本文在分析了现有的流表溢出攻击缓解方案的基础上,研究在检测精度、响应速度和资源消耗量等方面表现更好的方法。主要工作如下:首先,提出了一种基于
近年来,我国正在积极建设综合高效的智能运输基础设施。隧道作为重要的交通设施之一,在其长期使用期间,隧道衬砌会不可避免地出现各结构病害,会危害到隧道的安全运营。因此隧道衬砌结构病害高效的识别与分类,有利于保证隧道运营安全,有一定的工程应用价值和显著的社会经济效益。探地雷达(Ground-penetrating Radar,GPR)是目前广泛使用的隧道衬砌结构病害检测工具。但目前对于GPR数据的解释主
近来,全球经济快速增长,能源的消耗日益上升。建筑物的传统温控方案,造成了一定的能源浪费,并且存在忽略人体冷热感受的情形(例如在空调开启的情况下感到很冷或者很热)。构建实时的非接触式人体热舒适检测则能够有效缓解以上的情况,实现“以人为本”智能建筑。而目前的非接触式热舒适检测主要使用红外等设备,由于其价格昂贵,安装不便等原因,其并不能很好的应用于智能建筑的热舒适环境。同时,现有的一些使用图像捕捉等设备