基于线性最小二乘问题的ELBD算法在化学模式识别中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sdvfg4gf3fg3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学计量学是由数理统计,计算机科学以及化学三者相互融汇而成的一门边缘学科,是化学中很具有实力和广泛应用前景的新兴分支学科.化学模式识别是化学计量学中的一个重要研究内容.它是通过提取量测数据中的隐含信息,从而为科学家提供有实用价值的信息.模式识别的第一步就是获取数据,一般数据类型是近红外光谱数据,因为它具有快速,直接,无需化学剂等优点.但由于光谱数据较大,而且可能存在重要信息被覆盖的情况,我们一般对数据采用主成分回归,偏最小二乘回归等模型算法进行降维,以起到简化模型,提高模型稳定性的目的.  偏最小二乘法(partialleast-squaresregression,PLS)是近年来,应实际需要而迅速发展的一门广泛应用的多对多线性回归建模的统计分析方法,它最早起源于化学计量领域.当样本变量的个数很多,又都存在多重相关性,而且样本量又很少时,用偏最小二乘回归分析建立模型便具有传统回归分析等所不具有的优点.因为它不仅克服了自变量共线的问题,还充分考虑了主成分分析不曾考虑到的因变量对自变量的影响.  Woldetal.在[63]中提到PLS算法与基于线性最小二乘问题的Lanczos双对角化算法(简记为LBD)是等价的.尽管两者算法在数值上是等价的,但在计算量和空间复杂上却大不一样.首先,PLS算法在计算过程中,无法保持矩阵A的结构性质,如稀疏性等.此外,PLS算法另一个不利的地方便是必须计算矩阵PTkWk,这大大增加了计算复杂度.而这些劣势在LBD算法中均可以避免.鉴于此,本文重点研究学习基于线性最小二乘问题的LBD算法,并且在数值试验中,也将采用LBD算法代替PLS算法建模.  Eldén在[35]中提出用LBD算法求解线性最小二乘问题,并与TSVD比较残差下降值,从而证明了采用LBD算法求解的残差下降速度更快.Lanczos算法在空间复杂度上有较强的优势,特别是当矩阵A的阶数较大的时候.并且随着子空间维数k的增加,所构成的Krylov子空间将包含更多的信息量,这将更加有利于我们有效求解.但另一方面,随着子空间维数k的增加,需求的计算机存储空间也越来越大,而且其基向量所构成的Krylov矩阵也将越来越变态.所以,我们希望子空间维数k能尽可能的小.但这样可能会出现一个问题,便是子空间维数k较小时,其对角化矩阵Bk并没有足够的信息来解决我们想解决的问题.也就是说,当子空间维数k较小时,利用Lanczos算法求解并不能得到很好的结果.  在[19]中,作者提到一种扩展的Lanczos算法来改进Lanczos算法,并将其运用在人脸识别上,得到一个较好的实验结果.因此,本文也将用扩展的Lanczos算法来改进BD算法,然后求其线性最小二乘问题的近似解.第三章的数值例子证明了当子空间维数k较小时,我们改进的ELBD算法是非常有效的.由此,我们也得到了一个基于线性最小二乘问题的ELBD算法.  最后,我们将ELBD算法运用于化学模式识别上.实验中,我们采用232个不同品质石油的近红外光谱数据,构成232个样本.其中样本平均分为两组,一组训练集,一组为预测集.分别采用PCR算法,LBD算法和ELBD算法对训练集样本数据建立模型,并通过预测预测集中的化学性质,然后与预测集原始化学性质作比较,从而来检验模型的预测效果.实验效果良好,再次证明了ELBD算法的有效性,可行性和适用性。
其他文献
本文主要考虑关于Banach空间局部理论中的有限表示问题.我们首先回顾了Banach空间有限表示的已有结果.然后我们证明了任一Banach空间都存在一个可分子空间使得这个Banach空间
非公有制企业党组织发挥作用的问题,是当前非公有制经济领域党建工作的一个难点。为了搞好这一问题的研究,2003年9月份以来,我们组成调查组,深入到福建省各市县和部分企业,
自从上个世纪60年代以来,重尾分布在应用概率领域,特别是在分支过程,排队论及风险理论等领域有着广泛的应用.在保险业中,许多重大的风险都是由一些大额索赔造成的,如火险,风暴险和地震险等.由于重尾分布能刻画大额索赔这一特性.因此,人们有必要对重尾分布发生的规律进行研究,这对保险经营过程中的风险评估与预测提供理论工具.同时,在早期的保险风险中,人们将赔付额以及索赔发生的间隔时间均视为独立同分布的随机变量
学位
田习文, 1962年9月出生,山东单县人,数学本科毕业,理学学士学位,研究生学历。性格豪爽,心胸坦荡,正直淡雅。博学多思,兴趣广泛,工余之暇,喜好下象棋,吹唢呐,尤其潜心笔墨,孜
本文通过对荣华二采区10
图的标号问题起始于1967年Rosa提出的优美树猜想.一个图的顶点标号是图的顶点集到整数集的映射,而边标号则是图的边集到整数集的映射.根据对映射的不同的要求,产生了各种各样
本文应用无穷维动力系统理论的思想方法以及半群理论,研究了非线性发展方程解对应的动力系统的长时间行为,具体研究了吸引子的存在性及正则性.主要工作有:  i)研究了弱耗散
京郊农村的社会主义教育运动,是彭真同志与邓小平同志一起,于1961年4月到怀柔县、顺义县蹲点调查时确定开展的,后来同根据毛泽东制定的《前十条》的社教运动和根据《后十条修
本文主要研究双曲空间Hn+p(-1)中,平均曲率和标准数量曲率满足线性关系的子流形的刚性问题,得到了该类子流形是全脐或者等距于一个双曲柱面Sn-1(r)×H1(-1/(r2+1))的充分条件