多约束条件下图正则化非负矩阵分解算法研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:cjw37600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子设备和计算机技术的发展与普及,产生了海量的电子数据,这些数据通常具有高维、结构复杂、冗余等特点,造成了“维数灾难”问题。因此,面对海量复杂的数据,如何高效地发掘原始高维数据中的有用信息变得十分重要。在对这类复杂数据进行分析处理时,为了凸现分析结果的可解释性,通常需要满足“非负性”的约束。非负矩阵分解是一种具有解释性的低秩学习算法,由于在分解过程中存在“非负性”的约束,该方法只允许纯加性的线性组合,使得分解结果是基于部分的表示,这种表达方法符合人类大脑中“由局部构成整体”的认知方式,具有可解释性的特点。本文从图正则化的角度出发,针对目前图正则化非负矩阵分解(Graph Regularized Non-negative Matrix Factorization,GNMF)算法中存在的问题,通过引入多种不同类型的约束条件,进行了如下研究:(1)针对GNMF中存在的样本点空间关联描述不准确的问题,基于对偶图结构,提出了两种半监督对偶图多约束的非负矩阵分解算法,分别是半监督对偶图正则化双正交非负矩阵分解(SDGNMF-BO)算法和Sinkhorn距离特征缩放多约束非负矩阵分解(S3GNMF)算法。SDGNMF-BO算法基于局部线性嵌入构造了两个相似度矩阵,用来发掘原始数据的样本关联性与特征关联性,并将其合并为一个正则化项,以充分地描述原始数据的流形结构信息;然后,基于部分标签信息构造了全局约束矩阵,以提高算法判别力;最后,对分解因子施加额外的正交约束,以提高低维特征的排它性。S3GNMF算法考虑了原始数据在流形空间的分布特性,提出了基于Sinkhorn距离特征缩放的预处理方法,将原始数据的卷曲流形进行平滑化处理,以弱化离群样本点对图正则化项的干扰,提高S3GNMF算法的鲁棒性与图正则化项的有效性;然后,通过融合半监督学习、对偶图正则化与稀疏约束,提高了S3GNMF的子空间学习能力。在标准图像数据集和噪声图像数据集上的聚类对比实验,分别验证了两种算法在应对标准数据特征提取和噪声数据特征提取时的有效性。(2)针对GNMF算法中的异类样本间距离过近的问题,基于敌对图结构,提出了一种敌对图正则化的深度非负矩阵分解(AGDNMF)算法。该算法首先通过构造双向深度分解结构,以发掘原始数据中潜在的深层次结构信息;其次,该算法考虑了样本类内与类外的局部相似性关系并构造了一对敌对图正则化项,用以拉进类内样本,推远类间样本,以强化低维表示矩阵的判别力。通过在多个图像数据集与文本数据集上的聚类对比实验,证明了AGDNMF算法的有效性,能有效地发掘原始数据的层次结构和提取到高维数据显著的低维特征。(3)针对半监督图正则化项中标签信息与图结构不一致的问题,基于自适应邻域图结构,提出了半监督自适应邻域图更新的三因子非负矩阵分解(ABNMTF)算法。通过提出自适应邻域图正则化块对角的更新方法,在提高图正则化项内部关联结构准确度的同时仅增加了一个可调节参数;基于半监督信息的硬约束与灵活的三因子分解结构,显著增强算法的子空间学习能力和算法分解的灵活性;最后,通过半监督信息更新自适应邻域图结构,解决了标签信息与图结构不一致的问题,有效的改善本算法中图正则化的性能。该算法在多个图像数据集上的聚类对比实验中均取得了较好的聚类性能,具有耗时较少且参数敏感性弱的优点。上述工作主要围绕数据的非负特征提取与聚类应用,本文还针对高光谱解混应用中的解混性能弱问题进行了研究,提出了一种基于自适应邻域对偶图多正则化的非负矩阵分解(SMRNMF)算法,用于高光谱解混。该算法充分考虑了高光谱数据中混合端元分布不均匀性,丰度信息的稀疏性和纯端元的光谱平滑性。具体地,为了充分发掘高光谱数据中的相关性信息,提出了基于局部关联的自适应邻域对偶图正则化项,基于全局关联的子空间结构正则化项,满足丰度稀疏性的丰度矩阵稀疏约束项和灵活的平滑性调节矩阵。通过在多个真实高光谱数据集与合成数据集上的解混对比实验,验证了算法在高光谱数据解混上的有效性。
其他文献
高校辅导员与思政课教师是我国高校思想政治理论教育教学的骨干力量,二者虽然工作职责不同,但育人的目标都是相同的。思政课教师是党的路线、方针、政策的宣讲者,是党的创新理论的宣传骨干,是大学生健康成长的指导者和引路人,侧重于对高校大学生的思想政治理论课教育教学;高校辅导员是高校学生日常思想政治教育和管理工作的组织者、实施者和指导者,侧重于大学生的日常思想政治教育和管理、服务工作。思政课教师虽然理论基础扎
学位
<正>在我国经济发展碳中和的大背景与行业内竞争变得越发激烈的情况下,我国房地产作为国民经济支柱产业之一,应顺应时代要求,谋求低碳发展,房地产企业需要通过降低成本投入、提高产品质量的方式,用于谋求更大的发展,这就涉及我国房地产经济管理工作的创新。房地产经济管理工作的优化、创新是企业树立良好形象,提高其市场竞争力的有效途径。本文基于低碳模式发展的背景,
期刊
学位
对于集群生活的脊椎动物,个体或群体之间的识别往往能够促进信息传递与分享,利于动物自身的生存与繁殖。识别也几乎是所有动物社群行为能够发生的前提。动物可以利用视觉、嗅觉、听觉等进行识别,其中,对于多数的发声动物而言,声信号往往介导其觅食、求偶等系列生活史事件,是维持动物生存与社群稳定的关键。因此,对动物声信号识别能力的研究,有助于深入理解声信号的功能及其在选择压力下的适应性进化,以及动物如何利用声信号
学位
高级醇是一类广泛存在于饮料酒中的风味物质,适量的高级醇可以丰富饮料酒的口感,但含量过高,易导致醉酒,产生头痛等不适症状,严重的还会导致人体中毒。本文着重阐明高级醇对人体危害的机理及通过非基因工程手段调控饮料酒中高级醇含量,其中重点阐述可同化氮(Yeast Assimilable Nitrogen,YAN)源添加对高级醇合成的影响及相关机制,并提出降高级醇的方案,包括发酵工艺优化及后处理催陈,为工业
期刊
学位
文章采用文献计量学方法,以中国知网作为数据来源,对318篇出版专业技术人员职业资格考试研究文献的来源、发表年份、作者及其合作关系、发表机构、被引情况、基金支持等进行了分析,发现出版专业技术人员职业资格考试工作开展20年来,有关出版专业技术人员职业资格考试的研究已初步形成,2种期刊设置专栏或专刊开展长期研究,形成较稳定的作者队伍和发表机构,获得国家自然科学基金和部分省市区相关基金项目支持,但从促进人
期刊
试验旨在探究密度对不同生态区青贮玉米生物产量和品质指标的影响。研究以中原单32 (ZYD32)、宁单40 (ND40)、银玉238 (YY238)和桂青贮1号(GQZ1H)为材料,于2020—2021年进行了为期两年的密度试验,分析密度6.75万、7.50万、8.25万株/hm~2下青贮玉米干物质积累量、产量以及品质的变化。结果显示,不同种植密度下,各品种的含水量和干物质含量差异均不显著(P>0.
期刊
目的 探讨质量管理规则联合质量目标指数(QGI)在肿瘤标志物检测质量控制中的应用效果。方法采用化学发光免疫分析仪及配套试剂、校准物和质控品检验血清甲胎蛋白(AFP)、鳞状细胞癌抗原(SCCA)、癌胚抗原(CEA)、总前列腺特异抗原(TPSA)、神经元特异性烯醇化酶(NSE)、糖类抗原125(CA125)、糖类抗原15-3(CA15-3)、糖类抗原19-9(CA19-9)、糖类抗原72-4(CA15
期刊
学位