论文部分内容阅读
化学计量学是一门新兴发展的交叉学科,它从化学的角度,运用和发展数学、统计学和计算数学方法,并且充分利用计算机这个现代化工具来设计或选取最优化学量测方法,通过对化学数据的分析处理,最大限度地获取物质的化学组成及其相关结构信息。本论文针对数学、统计学和优化理论中与化学计量学关系密切的几个问题进行了深入研究。这些问题也是目前化学计量学的难点以及化学计量学家普遍关心的问题,具体分为三个部分:1.多元校正和定量结构与保留指数关系研究中模型的建立与预测(第一部分第一至第三章) 化学计量学校正方法多数基于隐变量方法,如偏最小二乘回归和主成份回归方法。尤其是 偏最小二乘回归方法,由于它是源于直观而导入的一种方法,能比较好的处理模型中变量 共线性问题。本部分先给出偏最小二乘回归估计更为简单清楚的表达式。利用这个表达式, 方法的作用原理可清晰的显现,其统计性质也较容易获得。在此基础上提出了广义偏最小 二乘回归方法,将偏最小二乘回归与岭回归有机结合起来,使不同的PLS组份能得到不同 的压缩。广义PLS方法比普通PLS方法能更有效地解决模型变量中的共线性问题,从而 提高模型预测的精度和稳定性。在定量结构与保留指数关系模型和多元校正模型研究中, 模型的确立问题,其本质是变量选择(或组份数确立)的问题,这也是统计学中回归分析的 一个焦点问题。化学计量学中应用最多的每次去掉一个样本点的交互检验。遗憾的是,它 倾向选择过多的变量(或过多的组份)保留在模型中,从而导致模型产生过拟合。Monte Carlo交互检验是上世纪九十年提出的一种具有相容性的选变量方法。本部分首次将此方法 用于多元校正模型和定量结构与保留指数关系模型的研究中,成功的解决了模型的确立 (或变量的选择)问题,避免了过拟合的产生。由于Monte Carlo交互检验值所表现的是用 比给定样本小的多样本所得模型的平均预测能力,用它作为模型的预测能力是不合适的。 本文推出修正Monte Carlo交互检验值的公式,并且证明它更接近模型的预测误差。2.复杂体系的多元分辨方法的研究(第一部分第四至第六章)色谱联用(如液相色谱与二极管 阵列联用仪HPLC-DAD,气象色谱与质谱联用仪GC-MS)的二维数据的解析,一直是化学 计量学关注的热点问题。化学计量学已发展出许多的解析方法,如窗口因子分析、正交投 影分辨和直观推导式演进特征投影等方法。本部分首先证明窗口因子分析和正交投影分辨 这两种主要的解析方法在代数空间上是等价的。揭示它们在数学本质上具有的内在联系, 这对于评价这些方法具有重要意义。对于色谱联用数据的难点问题——包含峰的解析,上 述这些方法都无能为力。本部分提出了一个迭代优化算法,成功的解析中草药等复杂体系 中的包含峰。 多组份体系分辨的方法大多需要使用者具备较好的数学基础和丰富的经验,而智能解析 却容易为实际工作者所掌握。因此,多组份体系智能解析是多元分辨的方向之一。智能解 析系统的重要环节是体系组份数判定的自动实现。本部分最后提出一个算法,将体系随机 误差分解成垂直的两部份,当体系中的组份全被提取时,只剩下体系随机噪声的主要部分, 可由一个判别函数自动识别,从而,实现体系组份数的自动判定。3.数论方法在试验设计和优化方法应用研究 试验设计是化学计量学的主要研究内容之一。 良好的试验设计可最有效的获取相应的化学信息,以达到优化化学反应条件或化工工艺参 数的目的。较常用的试验设计有部分因子设计,正交设计,均匀设计和最优设计,其中均 匀设计是由方开泰和王元发明,它是数论与统计学结合的结晶。与因子设计和正交设计不 同,均匀设计的水平数可以较多。因此,在非线性化学模型中,均匀设计根有希望表现良 好。本部分将均匀设计用于非线性模型的建立和预测,发现在均匀设计所确立的模型与真 实模型的偏差最小,在随机误差相对不大时,预测误差也较小。对于化学反应动力学的参 数估计以及预测,比较了均匀设计、最优设计和正交设计的优缺点,进一步确立了它们各 自适用范围,证实了均匀设计是更稳健的试验设计方法。 数论优化(也称为 Quasi-Mollte Carlo优化)方法作为一种全局优化算法,近年来 受到相当的关注。其改进后的序贯数论优化算法的收敛速度大大加快。本部分最后提出聚 类多重序贯数论优化算法,利用新的聚类方法,得到若干最可能为全局最忧潜在点,然后, 以这若干点为中心进行序贯。这一算法,改变了序贯数论优化算法过于依赖于第一次均匀 布点的缺陷,使得算法收敛到局部最优的可能性进一步降低。