论文部分内容阅读
天然产物是指天然来源(包括动物、植物和微生物等)的次生代谢产物,具有广泛的生物活性。由于其结构多样性和独特性,天然产物在药物研发中一直扮演着重要的角色,有53%的化学药品属于天然产物及其衍生物。对天然产物的结构多样性、化学空间进行分析可以加深人类对天然产物与生物进化、环境压力关系的认识,促进基于天然产物的药物研发。为了研究不同生物来源的天然产物之间的结构、性质差异,本论文对动物、植物和微生物来源的天然产物进行了基于化学信息学的对比分析。首先,我们整理了天然产物词典(Dictionary of Natural Products,DNP)中的结构、生物来源以及化合物类型等信息。DNP注释了186679个天然产物的来源信息,其中68.36%的天然产物来自于植物,19.39%来自于微生物,12.24%来自于动物。DNP中有化合物类型信息的天然产物有201881个,其中数量最多的化合物类型是萜类(33.80%)和生物碱(16.43%)。基于Sugar Buster算法,我们设计了糖基识别与去除流程,对天然产物进行了去糖基化处理。结果表明,16.77%的天然产物含有糖或者类糖片段。其中,植物、微生物、动物来源的天然产物糖苷化的比例依次降低,分别是:25.52%、13.35%和8.79%。然后,我们分析了天然产物的生物来源与结构类型之间的关系。多数化合物具有多重生物来源,部分化合物类型具有明显的物种偏倚分布,如:聚酮类化合物(76.68%)主要来自于微生物。萜类和多酚类(单宁、黄酮和木质素)化合物主要来自于植物来源的天然产物。其中,单宁类化合物几乎完全来源于双子叶植物(99.01%),黄酮(83.77%)和木质素(83.68%)在双子叶植物中分布较多,在单子叶植物中则分布较少,分别为7.96%和7.12%。最后,我们对不同生物来源的天然产物的理化性质和骨架特征进行了对比分析,并通过Tree Map和SAR Map对其化学空间进行可视化。从理化性质上看,动物来源的天然产物拥有更多的手性中心、C3sp原子和可旋转键,表明动物来源的天然产物在结构上具有更高的立体复杂性。微生物和动物来源的天然产物的分子量和分子表面积均大于植物来源的天然产物,表明动物和微生物来源的天然产物具有更大的分子结构。骨架分析的结果表明,动物和微生物来源的天然产物含有较多的大环,而植物则具有较多的五元或六元环,说明植物来源的天然产物在结构上更稳定。在微生物来源的天然产物中,发现了更多的氮原子、氧原子和硫原子,表明其具有更加多样化的生物合成途径。综上,本论文通过对DNP中不同生物来源的天然产物进行化合物类型、理化性质、分子片段等多方面的对比分析,揭示了不同生物来源天然产物之间的结构特征差异,对这些数据进行深度挖掘、分析,可以为天然产物的发现提供指导,促进基于天然产物的新药研发。