基于隐私保护与可解释性的非负矩阵分解算法研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lostbridges
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网浪潮的推动下,海量数据作为一种新兴的重要资源,已成为促进社会发展的关键基石。而海量数据所带来的挑战是如何有效地存储、挖掘和处理它们。矩阵作为数据挖掘和机器学习领域常见的数据组织形式,对这些大数据背景下的高维矩阵进行降维处理具有重大意义。非负矩阵分解(Non-negative Matrix Factorization,NMF)作为一种新的维数缩减方法,不仅可以通过低秩逼近的方式挖掘高维数据的潜在特征,而且由于非负性约束的引入增强了其可解释性,具有更实际的物理意义。时至今日,NMF已经被广泛地应用于文本聚类、推荐系统、图像分析、语音处理等领域中。本文在总结现有NMF算法的基础上,针对现存算法的缺点,聚焦于提升NMF算法在实际应用中的隐私保护能力、聚类性能和计算效率,提出了对应的改进措施和解决方案。围绕这三个方面,本文的主要内容可以概括为:(1)为了加强非负矩阵分解应用于推荐系统的隐私保护能力,针对现存方法隐私保护能力差、需要提前预训练以及计算量大的缺点,本文提出一种基于随机采样高斯机制的差分隐私非负矩阵分解算法(RDPNMF)。该算法基于差分隐私的高斯机制,通过在迭代过程中引入随机采样噪声的添加方式,不仅可以控制噪声量来提高其可用性,而且还可以避免预训练来减少其计算量。另外,本文给出了RDPNMF算法的隐私性证明。最后,在Movie Lens数据集上验证了算法性能,并讨论了其参数的选取,实验结果与分析说明RDPNMF算法具有极佳的隐私保护能力和更强的可用性。(2)针对机器学习中的聚类问题,本文提出了基于稀疏图正则的对称非负矩阵分解模型(SG-Sym NMF)。该模型综合考虑数据稀疏性和潜在几何特征,通过施加l1正则约束和拉普拉斯图正则约束,可以挖掘数据的多角度信息从而提升其聚类性能。此外,设计了该模型的求解算法,并给出了理论收敛性证明。实验结果表明:相较于现有方法,SG-Sym NMF在ACC、NMI、PUR、ARI、F1-score五个聚类性能指标上都有提升;在不同规模数据集上对算法参数的讨论也体现了所提算法的鲁棒性。(3)聚焦于非负矩阵分解算法深度展开领域,为提升其重构性能,本文提出了基于解耦参数的深度展开非负矩阵分解网络(D~2NMF)。D~2NMF网络模型基于迭代算法深度展开框架,借鉴LISTA-CPSS解耦参数的思想,减少了网络参数量不仅收敛更快而且模型性能也有所提升。实验结果验证了D~2NMF网络在处理模拟突变数据方面的实用性,比传统方法和现有网络方法的重构性能更优;此外,探究了展开网络层数对结果的影响,并验证了所提网络的收敛性。
其他文献
报纸
资源分配系统起源于计算机科学,目前已经在各个领域被广泛研究。医疗装备,如各类样本检验分析仪器及其共同构成的医学自动化分析系统,由于在运行过程中需要使用多种分析试剂,也被认为是一类资源分配系统。本文工作以医疗装备为应用背景,使用Petri网模型研究资源分配系统中资源时间和成本的建模分析问题。在资源分配系统日益复杂化的今天,经典Petri网在建模描述复杂系统能力方面呈现出诸多不足。因此,必须对经典Pe
学位
目前基于深度学习的人工智能算法已经在许多领域超越了人类,然而这类技术对数据的依赖性较高。在许多应用场景中,获取数据的过程面临着各种挑战,从而限制了深度学习算法在这些场景下的应用。因此探究在小数据量条件下训练可靠的深度神经网络具有重要的现实意义。小样本学习致力于解决数据稀少场景下训练模型的问题。在各类小样本学习算法中,基于度量的小样本算法性能较好。本文的研究问题为小样本图像分类,针对基于度量的小样本
学位
航空发动机是衡量一个国家国防实力和科技水平的重要标志,涡轮叶片处于发动机中温度最高、应力最复杂、环境最恶劣的部位,涡轮转速可达10~5rpm,燃气气流速度高达150m/s,涡轮前进口温度高达2000K,故叶片是发动机中的最关键部件之一。叶片所处环境呈现出的超强场、超载流和超速率的极端性,使得叶片极易发生疲劳失效等问题,进而威胁飞机的安全工作。因此,分析涡轮叶片在多场载荷耦合作用下的应力响应有重要意
学位
随着以氮化镓(Ga N)材料为代表的第三代半导体器件工艺革命,大功率半导体迎来了前所未有的迅猛发展时期。为对Ga N器件开展全方位研究,大功率工作环境带来的器件非线性行为就必须给予重视,精准的大功率半导体非线性建模与表征因此具有重要意义。传统S参数的表征和建模方法已不能完美描述器件在大信号激励下产生的谐波、压缩和互调等非线性行为——小信号S参数只能建立器件在小信号激励下近似线性的行为模型,而那些基
学位
<正>作者:余党绪ISBN:978-7-5720-1863-3出版社:上海教育出版社版次:2023年3月第1版定价:68元《红楼梦》整本书阅读,通读不易,理解很难,时间有限,要求不低。这就需要教师有合理的课程与教学设计,以精要的教学激发学生的阅读兴趣,达成对《红楼梦》的“整本书”的基本理解。余党绪老师将此概括为“按照整本书的规律教,教出《红楼梦》的个性来”。
期刊
针对电磁阀阀体及挡铁过盈装配合格率低的问题,从过盈装配关键工艺参数确定以及装配工艺方法两方面开展了过盈装配工艺技术优化研究。从过盈配合影响因素入手,根据电磁阀工作机制分析其物理及几何结构,并对过盈装配过程进行理论计算,从而给出过盈量选取的理论指导。同时根据某型号电磁阀结构设计工装,对比冷压装配法以及温差装配法的压装曲线,并对压装后的结构可靠性进行分析,发现温差装配法比冷压装配法具有较高的稳定性及可
期刊
随着互联网技术的飞速发展,丰富多彩的新媒体平台和社交平台成为了我们日常生活中不可或缺的重要组成部分。这些平台每天都在产生巨量的非结构化文本数据,处理这些数据并从中提取有价值的信息进而构成知识体系,往往需要耗费高昂的人力和时间成本。因此,如何利用计算机技术帮助用户自动化地快速从海量文本数据中获取感兴趣的信息成为了自然语言处理领域的研究热点。事件抽取是自然语言处理领域的一个子任务,主要目标是从非结构化
学位
《红楼梦》是一座无尽的宝藏,博大精深,择定教学内容非常重要。教学内容宜简不宜繁,宜小不宜大,宜“语”不宜“它”。同时要边阅读边赏析,有效处理好语文课程和思政教育的关系。
期刊
求解电大尺寸载体平台上天线的辐射问题向来是计算电磁学领域的关键主题之一。然而,天线的复杂性和载体平台较多的未知量使得对该问题的求解十分具有挑战性,针对上述问题求解所面临的困难,本文引入等效源方法将其近似为一个等效型问题,即先对天线部分进行求解,得到单独天线的近场或远场,再根据已知近场或远场来计算待求解区域的场值。本文基于矩量法获得的等效源利用近远场变换技术研究了以下三种类型的等效源:研究了平面波谱
学位