论文部分内容阅读
在环境化学中,定量结构-活性相关方法(QSAR)对于有机化合物的生态风险性评价、污染控制和预防等具有十分重要的意义。QSAR目前已经成为鉴定潜在环境内分泌干扰物的有效工具。本篇论文主要聚焦于目前在计算机领域流行的机器学习方法和它们在建立环境内分泌干扰物QSAR预测模型中的应用。传统的Hansch QSAR模型主要应用于结构差异性较小的同类化合物,将其用于结构复杂、作用机制复杂的内分泌干扰物有一定的局限性.而机器学习方法,则可以克服这一缺点。机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。本文中第一部分使用机器学习方法所建立的定量模型被用来预测连续范围的值,而第二部分所建的判类模型把化合物分成两类,进行定性预测。
在本论文的第二章,我们使用了一种重要的无约束最优化方法--共轭梯度法(CG)来改进目前应用最广泛的BP人工神经网络,用于环境雌激素的QSAR研究。这种两阶段训练法,可以充分利用两种算法的优点,彼此取长补短,有效地克服了单纯使用BP网络所存在的网络训练易于过度、收敛速度慢、预测结果不稳定、易陷入局部极小的问题。得到了稳健、准确的预测模型,模型的R2=0.845,预测集的q2pred=0.81,均方根误差(RMSE)=0.688。所得结果说明这种方法能够为筛选有机物的雌激素活性提供一种迅速、可行的工具。
我们在文章第三章使用一种新型的径向基神经网络-广义回归神经网络基于131个结构多样性的雌激素化合物建立QSAR预测模型。从化合物的分子结构计算所得,并且经过客观和主观变量选择后的9个分子描述符作为广义回归神经网络的输入值。广义回归神经网络在选取输入神经元数目之后,网络的结构和连接权值也随之确定,仅需确定一个平滑参数值。通过样本外数据集预测能力与鲁棒性对所建模型进行验证,可以发现模型在预测能力上不逊色于目前所使用的传统方法,并且推广性能强,人为调节参数少,收敛速度快,更为智能化。与BP网络相比,其算法易于实现、结构简单、便于编程。因此,广义回归神经网络可作为内分泌干扰物QSAR研究的有效手段,可以适应在实际应用中满足高通量筛选的需要。
我们在文章第四章使用了两种新颖的机器学习方法-概率神经网络和支持向量机,应用于建立判类模型来预测化合物是否具有雌激素活性。从化合物的分子结构计算得到的四个分子描述符被用来作为概率神经网络和支持向量机模型的输入值,这些分子描述符的重要性程度由接受者操作特性曲线进行分级,并且可以揭示出化合物分子与雌激素受体之间的作用机制。为了进行客观的评估,所建立的模型使用5个样本外数据集进行预测能力的验证。通过与文献的比较,我们所使用的两种方法所建模型都能取得另人满意的预测结果,并且概率神经网络操作更简单,所建模型的预测效果也更好。当概率神经网络对Yeast assays数据集进行预测时,所得预测结果的假阴率为零,假阴率是生态风险评估中的重要参数,本文所取得的结果将会为实际应用的毒理学评估提供相对可信的清单。最后,在本文和文献中均被错误预测的化合物被归纳总结,在训练集和预测集中被预测为假阴的物质都被仔细分析,这些工作将会在实际应用中辅助QSAR模型对雌激素的预测,并且有效地降低假阴错误率。
在文章的第五章,除了在上章节中介绍过的概率神经网络和支持向量机外,学习向量量化方法也被引入,这三种方法基于11个分子描述符,所建立的判类模型被用来判别化合物的雄激素活性。其中,概率神经网络模型取得最精确的预测结果,其针对样本外预测集的预测准确率达到86.67%,但学习向量量化模型给出了0.00%的假阴率。另外,综合了三种基本模型的共识性模型也被建立。与基本的独立模型相比,共识性模型预测准确率达到86.67%,而假阴率为0.00%。所得结果说明所建立的判类模型能够为迅速筛选潜在的雄激素提供一种可行的工具。