论文部分内容阅读
面对海量的数据以及科学家们对化学知识规律的不断需求,产生了化学信息学这一门新的学科。化学信息学利用信息学的方法来解决化学的问题,得到有关化学本质规律的认识。化学信息学的一个重要目的是得到专家知识来解释所观测到的化学现象,但是往往这些知识隐含在大量的数据中,这就需要发展一些新思想和新方法挖掘出这些蕴藏的知识。针对化合物熔点性质和生物活性,本文从下面几个方面展开了QSPR/QSAR的研究工作:1.提出了通过投影寻踪的方法来探索分子拓扑指数数据内部所含有的分子的结构信息的方法。分子拓扑指数编码了分子结构的不同信息,可以综合反映分子不同的理化性质。本文通过投影寻踪的技术形象地描述了四类拓扑指数所暗含的分子结构信息,投影寻踪是一种可以将高维数据映射到低维空间以便于观察和分析的数值优化技术。结果表明:四类拓扑指数分别编码了分子的不同结构信息,所编码的信息有部分的重叠,通过块变量子空间比较法可以定量化各块拓扑指数的重叠性。2.用不同的模型建立了有机化合物描述符和其粘度的关系,线性模型包括偏最小二乘法(PLS)和主成分回归(PCR),非线性模型包括径向基神经网络(RBF)和支持向量机回归(SVR).研究结果表明:各种不同的模型都可以很好的建立粘度与其描述符的定量关系,支持向量机回归可以达到更小的预测误差。3.药物水溶性在药物研发中发挥着重要的作用。在这个研究中,三种化学计量学方法-偏最小二乘,支持向量回归和反馈神经网络被用来建立水溶性的QSPR模型。33个分子描述符用DRAGON软件计算得到。结果显示三个模型均能够提供好的预测能力,在三种方法中,支持向量回归结果要稍微好于其它两种方法。最好的支持向量回归模型的评价指标分别为:(训练集)R2=0.851,RMSEF=0.542;(验证集)Q2=0.810,RMSECV=0.611.预测结果较好的一致于药物水溶性的实验值。4.建立一个好的QSAR/QSPR模型的关键步骤是模型中奇异样本的检测。高维数据奇异样本的检测是非常困难的,特别是当多个奇异样本共存于模型时。经典的鉴别方法并不总能检测到它们,因为这些方法均是建立在样本均值和协方差阵的基础之上的,它们自身很容易受到奇异点的影响。此外,现存的方法很多是仅仅强调于某种奇异点而非所有的。为了克服上面的问题,并且能够同时检测所有类型的奇异样本,我们提出了一个新的基于蒙特卡罗交互检验检测奇异样本的新策略。这个蒙特卡罗方法借助于多个模型的建立本质上提供了一种可行的方式去检测奇异样本。借助于获得的预测残基的分布,它能够降低掩蔽效应带来的风险。此外,一个残基的均值对方差的显示图被提到,这个图能够分整个数据为四部分区域,分别代表正常样本,X方向的奇异点,y方向的奇异点等。许多的例子被用来证实这个新策略的检测能力。