基于Huber损失的非负矩阵分解算法在聚类中的研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:herewe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非负矩阵分解是一种经典的数据分析工具被广泛应用于聚类任务中。它在保证对原始矩阵的良好近似前提下,为原始数据找到非负的、线性的矩阵表示。由于这种方法提取的特征都是非负的,符合现实数据的本质特征,因此被用于处理图像数据、光谱数据、基因表达数据。除了应用领域,非负矩阵分解在科研领域也受到了大量的关注,如今已有众多研究成果出现在视野中。在现有的研究方法和理论基础上,本文进一步分析算法的优点和不足之处,进行了相应的改进。论文的主要工作如下:(1)传统的非负矩阵分解算法使用均方误差函数来度量重建误差,在处理含有较大噪声的数据时模型的拟合效果很容易受到影响。Huber损失函数对较小的残差执行的惩罚与均方误差损失函数相同,对较大的残差执行的惩罚是线性增长的,因此与均方误差损失函数相比,Huber损失函数具有更强的鲁棒性;已有研究证明2,1范数稀疏正则项在机器学习的分类和聚类模型中具有特征选择作用。结合二者优点本文提出了一种基于Huber损失函数且融入2,1范数正则项的非负矩阵分解算法,并给出了基于投影梯度更新规则的优化过程,在多组数据集上将所提算法与多种聚类算法进行对比,实验结果验证了提出的算法的有效性。(2)传统的非负矩阵分解算法使用简单直观的线性表示模型,而现实世界中的问题几乎总是涉及不符合线性假设的数据,这就导致线性模型不能对各种真实数据集进行有效的表达。现有算法针对该问题,从多个角度提出了解决方案。本文提出一种新颖的办法解决该问题,即将“自表达”特性融入非负矩阵分解学习基向量组的过程中,提出了一种非线性的非负矩阵分解算法,即基于Huber损失的自表达非负矩阵分解算法,并给出了基于投影梯度更新规则的优化过程,在多组数据集上将所提算法与多种聚类算法进行对比,实验结果表明提出的算法性能优于某些具有良好聚类质量的方法,证明了提出的算法的有效性。
其他文献
成语是汉语词汇的重要组成部分。它们历史悠久,来源多样,数量丰富,使用频率高。在现代汉语中,成语有着非常重要的地位,也是汉语二语教学高级阶段的学习重点和难点。本文的题
针对我国现行建设工程质量监督管理体系,分析了我国当前建设工程质监督管理工作所面临的形势,找出了我国现行质量管理监督体系中存在的主要问题。在国内外质量监督管理体系比较
<正>http://www.usgs.gov美国地调局根据在美国之外发现的储量增长地区,发布了一份对石油及天然气储量的潜在增量的新的全球评估报告。美国地调局估计,世界上潜在的常规油气
<正>目的抗LGI1抗体相关脑炎是一种新发现的自身免疫免疫性边缘性脑炎。以往认为的抗VGKC抗体现己证实是针对VGKC两种相关蛋白,LGI1与CASPR2的自身抗体。2012年以来,我们诊治
会议
目的:观察火针结合背部挑刺治疗神经性皮炎后皮损的改善情况、瘙痒的缓解时间、对患者生活质量的影响,客观评价火针结合挑刺治疗神经性皮炎的临床疗效及随访过程中的复发情况
以白粉菌菌株CFSZ5159为材料,通过分子系统分析方法进行种的鉴定,旨在建立一种快速有效克隆白粉菌内转录间隔区(ITS)基因序列的方法。采用Chelex-100法提取白粉菌CFSZS159的
自20世纪80年代的个人电脑革命和90年代的互联网革命及其普及应用,计算机网络使得信息化所包含的信息收集、传递与共享具备了实现的技术条件.信息技术近十几年来的飞速发展和
随着我国经济的持续发展、老龄化速度的加快,我国医药行业近年来保持了快速增长。但是一直以来,老百姓“看病难、看病贵”这一问题备受社会高度关注,国家为了缓解这一严重的社会问题,于2017年初,正式对社会公布“两票制”政策,这一政策使我国的药品流通领域发生了重大变革。“两票制”的实施淘汰了河南医药流通市场上90%以上靠“过票”为生的医药流通企业,被淘汰企业留下来的空白市场为剩下的医药流通企业提供了业务开
民主党派领导班子建设,既关系当前多党合作事业的健康发展,更关系多党合作事业的持续发展。因此着眼民主党派政治交接和组织交接的需要,深入研究民主党派领导班子建设有效途
随着积极心理学的兴起,感恩逐渐成为研究者关注的热点,对感恩与青少年学业成就、问题行为、社会适应等进行研究,国内感恩测量工具、感恩干预方式等相关文献进行梳理,提出了感恩现