约束非负矩阵分解算法及其应用研究

来源 :南京理工大学 | 被引量 : 1次 | 上传用户:caonima_0720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着“物联网”、“云计算”、“大数据”、“移动互联网”的快速发展,人们获取数据的手段越来越丰富,获取到的数据也越来越多。但在很多实际应用中,获取到的数据往往是高维的、复杂的,并且包含了大量的冗余信息。因此,面对这些日益庞大的数据,如何有效的抽取出有用信息,是十分具有挑战性的问题。非负矩阵分解(NMF)算法作为模式识别、机器学习等领域的重要研究课题之一,能够有效的对高维数据进行低维表达,目前已被广泛应用于图像识别、文本挖掘、遥感分析、多视图聚类等多种应用场景。非负矩阵分解算法的基本思想是找到两个非负矩阵,其乘积能够对原始数据矩阵进行良好的估计。在人脸识别、文本聚类等结构化、稀疏化数据分析任务中,非负矩阵分解算法因其具有的“部分表示”特性显示出了良好的数据表示性能,受到了研究学者的广泛关注。非负矩阵分解算法通常采用交替式优化方法进行求解,为了在求解过程中避免陷于较差的局部最优解,可以通过设计约束项来对整个分解过程进行约束,同时嵌入不同的先验信息,以提升最终的分解性能。现有的约束非负矩阵分解算法从其定义、发展过程以及具体的应用数据上考虑,可分为基本约束NMF、扩展约束NMF和多视图NMF三个阶段。但无论哪一阶段的方法,由于场景的复杂多变、不确定噪声的干扰以及先验信息挖掘的不全面,其分解效果都有待改善,在各种量化性能评价指标上的表现都需要进一步提升。而本文正是基于这一目标,在对国内外一些具有代表性的约束NMF方法深入研究的基础上,提出了几种分属不同阶段的约束NMF方法,并结合一个实际的工程项目,将多视图约束NMF应用于裂缝这种最主要的路面病害的检测。论文的研究成果主要体现在以下几个方面:(1)提出一种基于鉴别约束嵌入的半监督非负矩阵分解(DSNMF)算法,并应用于半监督场景下的特征抽取。为了更充分有效的利用标签信息,DSNMF算法在图正则化非负矩阵分解(GNMF)算法的基础上从隐式嵌入和显式嵌入两方面引入标签信息以实现性能提升。一方面,在构图前,预先对标签样本进行度量学习,从而在构图的过程中实现隐式鉴别信息嵌入,增强了构图的准确性。另一方面,利用标签样本构造约束矩阵,在矩阵分解过程中指导未知标签样本向同类样本靠拢,提升数据鉴别性能。该方法与几种具有代表性的无监督NMF和半监督NMF算法相比,分解效果有明显改进,聚类指标得到提升;在ORL、Yale和Cora数据集上的平均AC指标超过GNMF算法,分别高出12.05%、11.42%和11.78%。(2)提出一种基于局部流形和全局鉴别结构约束的概念分解(LGCF)算法,并应用于图像聚类。为了在矩阵分解过程中综合考虑局部和全局结构信息,LGCF通过构建局部和全局正则项,对CF算法进行约束,在统一的迭代框架下实现高效的特征抽取。具体的,LGCF分别采用超图和无监督鉴别项来刻画局部和全局信息,相比于其它基于流形的CF改进算法,LGCF对于结构信息的挖掘更加充分,有效提升了最终的数据表示性能。在PIE、COIL20、MNIST和OUTEX图像数据集上的大量实验结果表明文中提出的LGCF算法的聚类准确率和归一化互信息指标优于其它几种具有代表性的对比方法。(3)提出一种基于区域稀疏学习的非负矩阵分解(RSLNMF)算法,并应用于高光谱图像解混。RSLNMF算法在解混过程中综合考虑了高光谱图像的谱带和空间信息。首先通过图割算法获取小块的空间同质区域,然后在此基础上构建了一个稀疏学习模型,并与NMF进行结合,使得分解过程和稀疏学习同时执行,从而在解混中可以有效融入局部稀疏结构信息。另外,根据高光谱丰度具有的稀疏性特性,对丰度增加额外的L1/2范数约束,以进一步提高解混性能。整个算法在统一的乘子更新迭代框架下进行优化。在人工合成的数据集上RSLNMF算法取得最优SAD和RMSE指标值,在真实的JasperRidge和Urban HYDICE高光谱数据集上,该算法平均SAD值达到0.085和0.110,超过其它几种具有代表性的解混算法,解混得到的丰度图与真实参考图趋势一致,能够定性的看出地表成分分布状态。(4)提出一种双约束非负矩阵分解(DCNMF)算法,并应用于半配对多视图聚类。为了综合挖掘半配对多视图场景下的数据信息,我们考虑了两个有效准则:流形保持和聚类相似准则,并将这两个准则对应的约束项嵌入到NMF算法的分解过程中。DCNMF的基本原理在于通过配对样本将不同视图中的数据推向一个共享的关系矩阵,同时挖掘同一视图数据中的局部几何结构信息。这样,DCNMF算法可以综合利用视图内和视图间的数据信息,有利于提高最终的数据表示性能。在人工合成数据集上DCNMF算法聚类指标值超过其它几种具有代表性的多视图聚类算法,尤其在半配对多视图场景下,DCNMF算法优势更为明显。而在真实的Texas、Washington和Digit多视图数据集上,DCNMF算法也取得了最高的AC和NMI指标值。(5)结合实际应用工程项目,针对单一属性特征的路面裂缝检测方法无法从复杂背景噪声中准确提取裂缝信息的缺陷,提出一种基于多特征流形学习和矩阵分解的路面裂缝检测方法。该方法首先根据路面裂缝子块的统计、形状和纹理特性提取多重属性特征并构造多个流形正则项,将流形正则项嵌入于矩阵分解的目标函数中,采用交替迭代法在统一框架下实现裂缝子块降维和多特征自适应融合。为进一步提高检测性能,对路面裂缝图像采用各向异性增强得到少量有效样本标签,实现算法的半监督扩展。在公开数据集(CrackIT)和实际采集的沪宁高速(HN)路面图像数据集上的实验结果表明,该方法的抗噪性能好,鲁棒性强;裂缝提取的准确性、完整性要优于多种常见的代表性算法。特别是在情况复杂、噪声干扰严重的HN数据集上,其综合指标Fβ高达0.878,验证了所提方法的有效性。
其他文献
笔者就如何在实践中逐步建立和完善科学合理的绩效考评体系和激励机制进行了系统研究,就如何进一步优化绩效工资制度并充分发挥文职人员的积极性和自主性,进行了展望,以期为
2004年7月6~9日在澳大利亚悉尼大学召开了第四届亚澳复合材料学术会议(ACCM-4),在此会议期间,国际学术期刊“Composites Science & Technology”(《复合材料科学与技术》)的主编
期刊
为解决煤矿掘进工作面停电停风引起瓦斯事故问题,提出一套新的整体掘进工作面停电应急供风系统设计方案,并在此基础上研发了大功率隔爆应急电源。该电源通过一种无损均衡充电
苏州万旭电子元件有限公司(以下简称"苏州万旭")是万旭电业股份有限公司(以下简称"万旭")下属的一家生产电源线、电子配线的企业,成立已将近十年,月营业额达三千多万,客户主
在数字核信号的处理中,为获取更好的能量分辨率等性能指标,需要对核信号数字滤波成形处理方法进行研究。基于数值递推方法分别建立了高斯成形和梯形(三角形)成形模型,然后搭建
国美电器在业内一贯坚持低价销售的发展策略抢占市场份额,从一家不起眼的电器商店发展成为拥有50家连锁店的"家电大王".这种用销量压低进价形成自己竞争优势的"国美模式",不
为了更准确标定U3Si2-Al燃料元件的γ射线吸收系数,论文设计了不同标样进行了单独定标和联立定标。利用不同标定方法获得的γ射线吸收系数进行燃料元件U3Si2、Al质量厚度的测
目的探讨护患沟通技巧在健康体检护理中的应用效果。方法将健康体检患者500例随机分为观察组和对照组各250例,对照组采用常规健康体检护理方法,观察组在对照组护理基础上实施