论文部分内容阅读
不良的 ADMET(Absorption,Distribution,Metabolism,Excretion,and Toxicity)性质是药物研发失败的重要原因,随着化学合成和生物筛选能力的飞速提高,大量化合物急需进行早期ADMET性质研究,许多中、高通量的体外测试技术应运而生。而计算机预测作为一类更加高效与经济的技术可以显著提高化合物ADMET性质研究的能力,加快药物研发的进程。本论文旨在利用机器学习方法预测化合物的血浆蛋白结合率和内分泌干扰特性,主要内容如下所述。第一章详细介绍了课题研究中使用的定量/定性构效关系(Quantitative/Qualitative Structure-Activity Relationship,QSAR)方法的研究过程,包括数据处理、分子结构表征、(定量、单标签及多标签分类)模型构建的常用机器学习方法和模型评价等。血浆蛋白结合率作为一个重要的药代动力学和毒代动力学性质在药物研究中具有重要的意义,因此,在论文的第二章我们构建了化合物血浆蛋白结合率的预测模型。该研究首先收集得到了一个由967个药物分子构成的训练集,然后结合6种机器学习算法和26个分子描述符构建了回归模型,用于预测化合物的血浆蛋白结合分数。我们还使用两种一致性策略构建了组合模型,结果表明一致性模型相比单个模型存在一定的优势。所有的模型通过内部10折交叉验证和三个多样的外部测试集进行验证与评估,其中三个测试集分别由242个药物分子、397个环境化合物和231个新设计的分子构成,模型对整个测试集预测的平均绝对误差(Mean Absolute Error,MAE)范围是0.126到0.178。本研究中我们根据不同的实验测试技术获得的数据分析了实验误差近似为0.061,此外考虑到结合率0-1的范围,0.126到0.178的误差表明我们的模型获得了合理的可靠性。最后,我们对影响血浆蛋白结合的关键分子描述符进行了分析,从而可以辅助模型的解释;同时还定义了模型的应用域,这将有助于模型的合理使用。化合物内分泌干扰性已成为一个严重的公共健康问题,也是药物毒副作用的一种,因此对广泛应用中的化合物进行内分泌干扰特性预测研究具有重要的意义。为此我们在论文的第三章构建了化合物内分泌干扰性的预测模型。首先我们从Tox21收集了 6个内分泌相关靶标的调节剂数据,通过整合获得了一个分别由294个和73个分子构成的多标签训练集和测试集,同时为每个靶标分别整合了一个单标签训练集和测试集,然后我们分别构建了多靶标单标签和多标签模型用于预测化合物的内分泌干扰特性。为了处理数据不平衡问题,我们使用多次随机欠采样结合投票分类的策略,为每个靶标分别构建单标签模型,然后我们结合5种多标签分类方法和12种指纹构建多标签模型。结果表明,所有靶标的单标签模型都获得了合理的可靠度,而多标签模型中Label Powerset这种能够考虑到靶标之间相互作用关系的算法结果最好。此外为了便于比较和分析,我们将每个靶标的最好的单标签模型组合起来以获得多标签预测,结果表明多标签模型的预测准确度相比组合最优的单标签模型存在显著的优势。研究发现传统的单标签模型对具有“多标签”特性的阴性样本预测易为假阳,而多标签模型能够很好地弥补这一缺陷。所以我们的研究说明,通过多标签建模策略,利用所研究靶标之间的相互作用关系,可以提升内分泌干扰物预测模型的准确度。最后一章为全文总结。