论文部分内容阅读
高效液相色谱联用二极管阵列检测器(High Performance Liquid Chromatography-Diode Array Detector, HPLC-DAD)数据的分离工作是为了从仪器产生的数据中提取混合物所有成分的光谱曲线(可以用于确定成分的类型)和色谱峰曲线(可以用来确定成分的含量)。该研究是很多相关研究的基础和前提。然而,目前相关的分离算法局限性比较大,大多需要知道HPLC-DAD数据中所含成分的个数、初始光谱估计矩阵或者色谱峰的标准曲线。而这种要求在很多情况下难以满足,尤其是当HPLC-DAD数据中所含成分比较复杂,各成分间的重叠比较严重的情况下。为了提高HPLC-DAD数据分离的精度和效率,增强数据分离算法灵活性和适应性,减少相关实验的硬件成本和投入,本文提出了基于参考曲线参数评价和优化的一种新的矩阵分解算法,并成功应用于HPLC-DAD数据的分离研究。本文的主要研究内容包括:第一,构建了一种新的HPLC-DAD数据分离方法。该方法以色谱峰的形态特征作为出发点,分析、选择并构建了含有参数的参考曲线来逼近相应的色谱峰曲线;然后在参数有效空间内初始化参数群,为寻找优化解做好准备;接下来建立了参数评价模型对各个参数的优劣进行评估,为参数更新修正提供依据;接着,基于进化计算和群智能的概念,设计了并行参数寻优算法,同时计算逼近所有色谱峰参考曲线的优化参数集合;最后,设计光谱估计器,计算HPLC-DAD数据中各个成分的光谱曲线。第二,设计了参数评价模型。根据建立起来的HPLC-DAD数据分离方法,分析、讨论了参数评价模型的结构和组成。参数评价模型的功能是对输入的参数进行评价,并给出一个评价值代表该参数所构建的参考曲线与HPLC-DAD数据中的任意一条色谱峰曲线之间的误差。参数评价模型的重点在于设计其中的曲线生成模型。曲线生成模型的功能是能够根据任意一条输入曲线,从HPLC-DAD数据置换生成一条同样长度的曲线,并与相应的输入曲线进行比对。根据设计要求,本文分别设计了两种曲线生成模型:参考曲线约束的独立成分分析(Independent Component Analysis constrained by Reference Curve, ICARC)模型和参考曲线测量(Reference Curve Measurement, RCM)模型。ICARC模型是将色谱峰参考曲线的形态特征约束引入独立成分分析(Independent Component Analysis, ICA)模型的目标函数,推导得到输出曲线权值向量的迭代公式。通过八组覆盖典型情况的性能测试,ICARC模型能够满足设计的要求。进一步的分析研究发现HPLC-DAD数据中所包含各成分的色谱峰曲线之间没有必要相互独立。因此,本文提出了一种新的RCM模型,剔除了ICARC模型中关于独立性的要求,降低了模型的复杂程度,减少了模型的运算量。通过测试,RCM满足了设计的要求,并得到了比ICARC更好的性能指标。第三,设计了针对参数评价模型的参数寻优算法。针对上述设计的参数评价模型具有多于一个优化解的特点,本文设计了基于进化计算和群智能的多目标解参数寻优算法,包括多区域遗传算法(Multi-area Genetric Algorithm, MGA)、多目标解粒子群优化算法(Multi-target Particle Swarm Optimization, MPSO)、深度搜索多目标解粒子群优化算法(Deep Search Multi-target Particel Swarm Optimization, DSMPSO)、多子群粒子群优化算法(Multi-group Particle Swarm Optimization, MGPSO)和并行非线性最小二乘算法(Parallel Nonlinear Least Square, PNLS)算法。MGA算法基于遗传算法的基本理念,提出了参数空间多区域择优的方法。对参数空间进行动态区域划分,增加了临近参数的互动;对过于靠近的区域进行整合,避免了对后续移民策略的影响;采用精英繁殖的规则,保留了种群的优良基因;采用移民策略,提高了种群的多样性和活力。MPSO、DSMPSO和MGPSO三种算法都是基于粒子群优化算法而提出来的。MPSO算法将单个粒子的寻优局限在其周围的一个临域内,从而保证了所有优化参数的求解。为了避免MPSO算法中的参数设置,并加快单个粒子的寻优过程,DSMPSO算法采用了深度搜索的策略,即缩短了单个粒子的寻优过程,又提高了每个粒子的寻优精度。如果能够先寻找粗略解,然后仅在粗略解周围进行初始化并采用传统的PSO算法在有限的范围内寻优,就可以调动相应范围内的所有粒子的资源寻找该范围的最优解。基于该思路,本文又提出了MGPSO算法。非线性最小二乘(Nonlinear Least Square, NLS)算法是一个传统的基于梯度的优化算法,其本身具有收敛速度慢、易产生局部极小值等缺陷。本文将群智能的相关概念引入NLS,提出了PNLS算法。算法中参数群同时采用NLS算法进行计算,并在相互之间共享整个群体的误差分布情况,并给每个参数引入不同的加速因子,即加快了远离优化值参数的收敛速度,又保证了临近优化值参数的收敛精度。参数群同时计算,实现了所有优化参数的同时求解。经过仿真实验和真实HPLC-DAD数据实验,所建立的算法能够求解参数评价模型,并得到色谱峰参考曲线的优化参数集合。最后,文章对本文的研究工作进行了总结,并对将来的进一步研究进行了展望。