论文部分内容阅读
分子描述值包括各种各样的拓扑指数,量子化学描述值,物理化学参数等等。他们都是对化学分子结构的定量描述。化学计量学,特别是定量的分子结构与分子活性或者是分子属性之间的关系,它的目的就是寻找合适的统计模型对分子的物理的,化学的,生物的性质与分子结构之间的关系进行研究。这些结果无论在理论上,还是在计算化学,生物化学,药理学以及环境学研究都是有帮助的。 在多元统计分析和数据挖掘里,普通的最小二乘回归,主成分回归,偏最小二乘回归,多元可加回归样条以及多元可加回归树等方法是构造统计模型的有用的工具。这些参数模型基本上是由一个线性回归和一个独立同分布的误差变量构成的。线性回归可以称做参数部分,随机误差项可以看成是系统偏差。 然而,在大多数情况下我们假设随机误差项是独立同分布的。但是这种假设情形不一定总是合理的。比如,在化学计量学的定量的分子结构与其分子活性的研究中,许多例子说明当我们用通常的模型去拟合分子某种属性的时候,相对测量误差来说,估计的残差仍然很大。原因也许是多方面的。一个最简单也是最自然的想法就是,不可以接受的残差之间也许是相依的。因为有限的分子描述值不可能完全描述和解释分子结构的所有信息。所以考虑响应变量观察值相互之间的相依性就变得很自然了。因为这些相依性比独立性可以表达更多的信息。比如,我们可以用一个平稳的高斯过程{z(x_i),i=1,2…,n}去代替独立同分布的随机变量族∈_i。如此一来,基本参数模型的第二项的系统偏差就被一个平稳的随机过程所替代。事实上,普通的Kriging方法就是由一个参数回归部分和一个随机过程组成的。在这篇论文里,Krigng模型与其它化学计量学中常用的模型进行了比较,实验结果表明Krigjng模型可以大大改善其它模型的预测效果,因此Kriging模型结构的假设具有一定的合理性。 通过理论证明Kriging模型是一个插值函数。这个插值函数对于训练样本的拟合结果当然是出乎意料的好。而对于非计算机产生的数据(即含有测量误差的数据)来说,检验样本的预测效果就达不到建模过程中的拟合效果那么好了。如果建议在原有的Kriging模型的基础上加上一个扰动项∈(x),新的