多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用

来源 :湖南大学 | 被引量 : 1次 | 上传用户:P214909697
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文作者对多元校正中的一些难点问题进行了深入的研究,提出了多种新型化学计量学算法,并将其应用于标准校正数据集的研究,另外也对化学计量学二维数据分析方法在色谱分离质量评价中的应用进行了一些研究。本论文主要包括以下几个方面的工作:1.探讨了多元校正建模中的训练集样品的代表性和最优化样品加权问题。由于多元校正的样品光谱空间的多维性和复杂性以及样品选取过程中的不确定性,准确估计训练集样品在整个样品空间的代表性尚存在一定困难。传统的多元校正模型大多根据经验方法选择代表性样品,在某些不利的情况下可能会影响校正模型对新样品的预测性能。为解决以上问题,同时考虑到样品的代表性很难通过考察单个样品进行估计,我们把全局优化样品加权的思想和偏最小二乘相结合,提出了最优化样品加权偏最小二乘这一新算法。该算法通过对原来的训练集样品进行非负加权,在校正建模过程中同时考虑了模型的复杂性和预测能力,最优样品权重通过粒子群优化算法搜索获得。另外,为了使样品加权偏最小二乘的建模和优化更加易于计算,我们进一步证明了样品加权校正模型可通过对每个样品的光谱数据和组分浓度值乘以一个相同的非负常数实现。将该算法应用于真实的标准数据集的结果表明,在原始校正样品的代表性较差时,最优化样品加权偏最小二乘算法确实能够改善模型的预测性能。2.基于粒子群优化算法,我们提出了一种较传统的变量选择方法更为灵活的变量加权方法。通过对传统的基于变量选择的校正模型的考察可以发现,进入校正模型的变量实际上被赋予权重1,而被模型舍弃的变量的权重实则为0。如果把权重的概念引入变量选择,允许变量的权重取非负的连续值,则传统的变量选择只是变量加权的一种特殊情况。另外,由于变量加权的目标是同时优化校正集的训练和验证集的预测,连续非负的变量加权实际上可视为对光谱变量的某种最优化重新刻度,因此比传统的变量选择有更多的灵活性。对真实校正数据集的研究表明,变量加权偏最小二乘方法不仅能起到变量选择的作用,还能够在校正模型中保留较多的变量,保持了多元校正的多通道优势。3.我们改进了一种新的机器学习算法—叠加回归,并将其应用于多元校正,同时实现了波长区间的快速自动优化选择和校正模型组合。我们用蒙特卡罗交互验证代替了叠加回归中的传统的交互验证,再用改进了的叠加回归算法组合建立在单个波长子区间上的偏最小二乘模型,所得模型在组合系数非负的约束下具有最小的蒙特卡罗交互验证均方根误差,所以可以期望组合模型具有较好的泛化性能和防止过拟合的能力。叠加回归能够通过非负最小二乘法确定模型组合系数,把某些光谱子区间模型对应的组合系数置为0,从而实现波长子区间的自动选择。另外,由于线性组合模型的蒙特卡罗交互验证可通过组合一系列子模型的蒙特卡罗交互验证来实现,而单个的光谱子区间模型的交互验证计算量很小,所以该方法与同类区间选择方法相比,计算量要小得多。对标准校正数据集的研究进一步证实了该方法的实用性。4.我们提出了一种多元校正中近红外光谱数据预处理的新概念—群预处理方法。由于近红外光谱数据经常受到背景、基线漂移和噪声等不利因素的影响,对原始光谱测量数据进行适当的预处理在很多情况下已经成为多元校正的必要步骤。但是,由于光谱的复杂性和先验信息的缺乏,确定最好的预处理方法常常需要多次尝试,并且要求操作者有一定的数据处理经验;另外,单一的预处理方法在改善数据的某些方面的同时,也可能带来某些方面的负面影响和面临信息丢失的风险,并且基于单一预处理方法的校正模型对新样品的预测可能缺乏稳定性。为解决以上问题,我们提出了近红外光谱的群预处理方法,该方法用蒙特卡罗交互验证叠加回归算法组合一系列基于不同预处理方法的校正模型,可以实现预处理方法的自动选择和优化加权。对真实校正数据集的研究结果表明,基于群预处理方法的校正模型与基于单一预处理方法的校正模型相比,不仅保持或改善了原有模型的准确性,而且模型的稳定性有所提高。5.我们把移动窗口偏最小二乘算法应用于多元校正的模型转移,建立了高稳定性和低复杂度的全局校正模型。当把已有的校正模型应用于新样品的光谱校正时,如果新样品的光谱含有与模型的训练样品不相同的光谱贡献时,为防止出现偏差和严重的误差,就需要对原有的校正模型进行校正转移。我们把一种新的波长区间选择方法—移动窗口偏最小二乘法引入到全局校正模型中。移动窗口偏最小二乘法能够选择与化学组分相关的光谱子区间,并且能够降低全局模型的复杂度。通过对标准的校正数据集的研究,基于移动窗口偏最小二乘的全局模型确实体现了上述优点,较好地实现了校正模型的转移。6.我们讨论了基于单通道检测器的色谱图的传统的色谱分离标准在估计色谱分离质量时可能遇到的问题,并且指出,很多问题都是由于一维色谱图在严重峰重叠的情况下缺少诸如组分数、重叠度和峰纯度等信息造成的。然后,我们综述了化学计量学二维数据分析方法在色谱分离效率评价中的应用,并且依据文献和我们的研究经验,对某些重要问题进行了讨论。7.我们提出了一种新的基于秩图的色谱分离评价指标—峰纯度加权分辨率。与传统的基于单通道信号检测器的色谱分离标准相比,峰纯度加权分辨率的优势在于它同时利用了化学组分数、重叠程度、流出时间和峰纯度等关键色谱信息,而这些信息在色谱峰严重重叠时是很难从一维色谱信号中获得的。对模拟色谱体系和一个真实色谱体系的研究表明,峰纯度加权分辨率的值能合理地反映色谱重叠程度的大小,该标准确实可用于严重重叠的色谱图的分离估计。最后,我们还讨论了使用峰纯度加权分辨率时应当注意的问题。
其他文献
本论文主要报道我们在自行设计搭建的红外化学发光的实验装置上,结合商用步进扫描的时间分辨傅立叶变换红外光谱(TR-FTIR)仪,对三种烷基亚硝酸(RONO)类分子(n-C4H9ONO,(CH3)2C3H5ONO
研究不同CO2、O2、N2气体组分配比的气调包装条件对气调包装冷却猪肉品质的影响,对6组在不同气调组分条件下,冷却猪肉在7d冷藏期内的菌落总数、挥发性盐基氮(TVB-N)值、脂肪
公益事业被认为是人类社会文明与进步的标志之一。随着我国掀起的"微博热",传统官方或半官方的公益组织在公益领域所占的地位及对民众的吸引力明显下降。公众参与公益的模式更
戈特利布·戴姆勒体育场前身为内卡(Neckar)运动场.建于1933年.主看台对面的开放式看台建于1949年至1951年,为举办1974年世界杯比赛.该体育场于1971年~1973年进行了扩建:其中正面
针对连通式油气悬架的"小腔憋压"现象,基于AMESim软件建立了连通式油气悬架的仿真模型,分析了连通式油气悬架在受冲击载荷作用时悬架内部流量和压力的变化,研究阻尼孔尺寸对悬
一、总体构思"绿轴龙脉"为规划的主要概念,纵联南北,直达北江.规划中的新区,宛如一条巨龙,携山水之灵气、荷花之清香,蜿蜒于山间河畔.龙尾潜藏于山中,龙头饮水于河畔.
多金属氧酸盐(POMs)是由前过渡金属离子通过氧连接而成的金属-氧簇类化合物。多金属氧酸盐具有确定的结构,多样化的组成和优异的物理化学性质,使其在催化、生物、医药、分析化
12月18日,“第九届中国灾难恢复行业高层论坛”在北京大学举行。本次论坛由工业和信息化部指导,中国信息安全测评中心和北京大学联合主办,《中国信息安全》杂志社承办,北京协同创
宫城县立儿童医院1.前述当人们进入日本东北地区核心城市仙台市西部广濑川的河岸台地,就会看到这个由红色砖墙、浓灰色金属屋顶以及民居尺度的阳台等要素构成的建筑物.对儿童
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield