论文部分内容阅读
对于化学反应数据库的分析来说,化学反应的自动分类是十分重要的,尤其是对于代谢反应。在这一领域,已经进行的一些研究主要基于反应中心识别。然而,在大多数的数据库,由于无法得到反应中心的信息,这些方法的应用受到了限制。化学反应的分子映射指数(MOLecular Maps ofAtom-level Properties,MOLMAP)是产物的MOLMAP指数和反应物的MOLMAP指数的差异。这个指数不需要预先指定反应中心,具备能够被广泛应用的潜力。在本论文中,我们采用化学反应的MOLMAP指数,对光化学反应数据及生物代谢反应数据分别进行了研究,具体内容如下:1.光化学反应分类预测研究数据集来源于德国InfoChem GmbH的SPRESI数据库,共包含356个光化学反应,每一个反应均包括两个反应物和一个产物。人为的将这些反应分为七类。我们由反应物和产物的结构衍生了反应物,产物和化学反应的MOLMAP指数,其中化合物的结构由化学键的物理化学性质和拓扑性质所表征。通过随机森林建立了三种类型的模型:(1)预测反应物可能发生的反应类型;(2)预测可能合成产物的反应类型;(3)预测整个化学反应的类型。对比此前同一数据集的研究,表明改进化学键的描述有助于提高MOLMAP指数的预测能力。为了得到更稳定和准确的模型,通过weka进行了化学键的物理化学性质和拓扑性质的变量选择。变量选择后,化学键性质的子集用于生成MOLMAP指数。同时还进行了被选子集性能的评价。2.生物代谢反应分类预测研究生物代谢反应的数据集来源于KEGG LIGAND数据库。这些反应分为六类,其中的一类为水解酶催化的化学反应。本章的数据集由619个水解酶催化的化学反应所组成。这些反应被进一步分为八个子类。由于逆反应也被包含,共得到1238个代谢反应。通过随机森林,由化学反应的MOLMAP指数,自动地预测了化学反应分类。此外,采用weka,也对生成MOLMAP指数的化学键性质进行了变量选择。变量选择的研究仍在进行中。