论文部分内容阅读
近年来,随着“物联网”、“云计算”、“大数据”、“移动互联网”的快速发展,人们获取数据的手段越来越丰富,获取到的数据也越来越多。但在很多实际应用中,获取到的数据往往是高维的、复杂的,并且包含了大量的冗余信息。因此,面对这些日益庞大的数据,如何有效的抽取出有用信息,是十分具有挑战性的问题。非负矩阵分解(NMF)算法作为模式识别、机器学习等领域的重要研究课题之一,能够有效的对高维数据进行低维表达,目前已被广泛应用于图像识别、文本挖掘、遥感分析、多视图聚类等多种应用场景。非负矩阵分解算法的基本思想是找到两个非负矩阵,其乘积能够对原始数据矩阵进行良好的估计。在人脸识别、文本聚类等结构化、稀疏化数据分析任务中,非负矩阵分解算法因其具有的“部分表示”特性显示出了良好的数据表示性能,受到了研究学者的广泛关注。非负矩阵分解算法通常采用交替式优化方法进行求解,为了在求解过程中避免陷于较差的局部最优解,可以通过设计约束项来对整个分解过程进行约束,同时嵌入不同的先验信息,以提升最终的分解性能。现有的约束非负矩阵分解算法从其定义、发展过程以及具体的应用数据上考虑,可分为基本约束NMF、扩展约束NMF和多视图NMF三个阶段。但无论哪一阶段的方法,由于场景的复杂多变、不确定噪声的干扰以及先验信息挖掘的不全面,其分解效果都有待改善,在各种量化性能评价指标上的表现都需要进一步提升。而本文正是基于这一目标,在对国内外一些具有代表性的约束NMF方法深入研究的基础上,提出了几种分属不同阶段的约束NMF方法,并结合一个实际的工程项目,将多视图约束NMF应用于裂缝这种最主要的路面病害的检测。论文的研究成果主要体现在以下几个方面:(1)提出一种基于鉴别约束嵌入的半监督非负矩阵分解(DSNMF)算法,并应用于半监督场景下的特征抽取。为了更充分有效的利用标签信息,DSNMF算法在图正则化非负矩阵分解(GNMF)算法的基础上从隐式嵌入和显式嵌入两方面引入标签信息以实现性能提升。一方面,在构图前,预先对标签样本进行度量学习,从而在构图的过程中实现隐式鉴别信息嵌入,增强了构图的准确性。另一方面,利用标签样本构造约束矩阵,在矩阵分解过程中指导未知标签样本向同类样本靠拢,提升数据鉴别性能。该方法与几种具有代表性的无监督NMF和半监督NMF算法相比,分解效果有明显改进,聚类指标得到提升;在ORL、Yale和Cora数据集上的平均AC指标超过GNMF算法,分别高出12.05%、11.42%和11.78%。(2)提出一种基于局部流形和全局鉴别结构约束的概念分解(LGCF)算法,并应用于图像聚类。为了在矩阵分解过程中综合考虑局部和全局结构信息,LGCF通过构建局部和全局正则项,对CF算法进行约束,在统一的迭代框架下实现高效的特征抽取。具体的,LGCF分别采用超图和无监督鉴别项来刻画局部和全局信息,相比于其它基于流形的CF改进算法,LGCF对于结构信息的挖掘更加充分,有效提升了最终的数据表示性能。在PIE、COIL20、MNIST和OUTEX图像数据集上的大量实验结果表明文中提出的LGCF算法的聚类准确率和归一化互信息指标优于其它几种具有代表性的对比方法。(3)提出一种基于区域稀疏学习的非负矩阵分解(RSLNMF)算法,并应用于高光谱图像解混。RSLNMF算法在解混过程中综合考虑了高光谱图像的谱带和空间信息。首先通过图割算法获取小块的空间同质区域,然后在此基础上构建了一个稀疏学习模型,并与NMF进行结合,使得分解过程和稀疏学习同时执行,从而在解混中可以有效融入局部稀疏结构信息。另外,根据高光谱丰度具有的稀疏性特性,对丰度增加额外的L1/2范数约束,以进一步提高解混性能。整个算法在统一的乘子更新迭代框架下进行优化。在人工合成的数据集上RSLNMF算法取得最优SAD和RMSE指标值,在真实的JasperRidge和Urban HYDICE高光谱数据集上,该算法平均SAD值达到0.085和0.110,超过其它几种具有代表性的解混算法,解混得到的丰度图与真实参考图趋势一致,能够定性的看出地表成分分布状态。(4)提出一种双约束非负矩阵分解(DCNMF)算法,并应用于半配对多视图聚类。为了综合挖掘半配对多视图场景下的数据信息,我们考虑了两个有效准则:流形保持和聚类相似准则,并将这两个准则对应的约束项嵌入到NMF算法的分解过程中。DCNMF的基本原理在于通过配对样本将不同视图中的数据推向一个共享的关系矩阵,同时挖掘同一视图数据中的局部几何结构信息。这样,DCNMF算法可以综合利用视图内和视图间的数据信息,有利于提高最终的数据表示性能。在人工合成数据集上DCNMF算法聚类指标值超过其它几种具有代表性的多视图聚类算法,尤其在半配对多视图场景下,DCNMF算法优势更为明显。而在真实的Texas、Washington和Digit多视图数据集上,DCNMF算法也取得了最高的AC和NMI指标值。(5)结合实际应用工程项目,针对单一属性特征的路面裂缝检测方法无法从复杂背景噪声中准确提取裂缝信息的缺陷,提出一种基于多特征流形学习和矩阵分解的路面裂缝检测方法。该方法首先根据路面裂缝子块的统计、形状和纹理特性提取多重属性特征并构造多个流形正则项,将流形正则项嵌入于矩阵分解的目标函数中,采用交替迭代法在统一框架下实现裂缝子块降维和多特征自适应融合。为进一步提高检测性能,对路面裂缝图像采用各向异性增强得到少量有效样本标签,实现算法的半监督扩展。在公开数据集(CrackIT)和实际采集的沪宁高速(HN)路面图像数据集上的实验结果表明,该方法的抗噪性能好,鲁棒性强;裂缝提取的准确性、完整性要优于多种常见的代表性算法。特别是在情况复杂、噪声干扰严重的HN数据集上,其综合指标Fβ高达0.878,验证了所提方法的有效性。