论文部分内容阅读
光谱测量是一种常用的物质检测技术,特点是分析速率高、无损耗、绿色低成本且容易实时在线分析。根据其自身的优势,光谱测量技术已经被广泛应用于医药、农业、化工业等科学领域。然而,通过光谱测量得到的数据一般具有“高维度、低样本”的特征,并且谱带间存在严重的重叠问题,使得光谱数据较为复杂,难以直观地做出分析与判断。基于这一问题,本文使用近红外光谱测量技术,面向多组分分析,重点研究化学计量学中的多元回归方法,利用不同的算法进行建模分析并比较实验结果。偏最小二乘是近红外光谱分析中应用最为广泛的一种算法,它能够有效克服高维光谱数据中的多重相关性问题,提取有效信息,降低模型中的变量维度。但究其本质,偏最小二乘算法中的隐变量是原自变量的线性组合,它将所有的原始变量都带入模型进行预测分析,从而可能存在无关或者冗余的变量信息,使得模型相对于原始变量并没有实现变量选择,变量信息无法解释,因此需要引入稀疏化方法,从真正意义上达到变量选择的效果。本文的研究工作着手于模型稀疏化,从协方差估计、重加权和阈值约束三个方面达到对光谱数据的波长选择,除此以外还对样本进行选择,利用波长选择的思想处理样本选择问题。主要工作如下:1.本文提出基于稀疏矩阵变换(SMT)的协方差估计方法,通过具有高度相关性的变量之间的坐标转换达到剔除部分无效或冗余变量的效果,使得变量之间相互独立,提高协方差估计的稳定性和准确性。将SMT估计加入偏最小二乘算法中,并继续对偏最小二乘建模过程中进行重加权处理,得到稀疏化的偏最小二乘(SPLS)方法,最后将PLS和SMT-PLS以及SMT-SPLS这三种回归方法进行分析对比。2.提出基于框架的稀疏化学习方法,其本质思想是对多元回归方法计算得到的回归系数值再次进行函数处理,设定阈值从而剔除部分无效变量,该框架算法的优势在于迭代多次进行稀疏化变量选择。同时,将框架与稀疏化的偏最小二乘方法相集成(IRLS-SPLS),达到不仅能在框架中使用不同的函数对自变量进行加权惩罚,还能循环多次处理回归系数。最后通过软件程序实现并将结果与其他多元回归方法相比较。3.借鉴变量选择的思想用于样本选择,利用非线性的偏最小二乘方法对样本进行自动选择,再加入权重值对结果再次稀疏,或者结合稀疏化迭代框架的设计对样本进行迭代选择。在本设计点中针对于大样本量的数据,如果样本量过少则不适用于稀疏化方法,否则会使得模型欠拟合。