论文部分内容阅读
中成药生物成分的物种鉴定是中成药临床用药安全的重要问题。传统的中成药鉴定主要通过显微鉴定、理化鉴定来实现,但尚未覆盖所有处方成分,物种鉴定的专一性和通用性尚需进一步提高。随着分子技术的产生,Sanger测序已经广泛应用于单味药材的真伪鉴定,其测序准确率高。而对于复方制剂,Sanger测序无法对多组分混合DNA进行测序。Shotgun metagenomics技术结合了DNA条形码技术和高通量测序技术的优点,可以得到来自于混合样本中的DNA序列,经数据分析获得目标DNA条形码片段后即可实现物种鉴定,因此本研究将以三子散、五子衍宗丸和益母丸三种处方成分数目不同的中成药为测试数据集,构建基于shotgun metagenomics技术的中成药生物成分物种鉴定的数据分析方法。青果丸是一种治疗咽炎的常用中成药,该处方由八味药材组成,均以原粉入药,每味药材入药剂量相同,避免了由于剂量差异造成的掩盖其他成分的可能,因此本研究将上述构建的数据分析方法用于青果丸的生物成分物种鉴定分析,以验证该方法的适用性,并通过该方法对市售青果丸的生物成分进行物种鉴定,为青果丸的质量控制提供一种新的方法。目的:本研究选择三子散、五子衍宗丸和益母丸三种处方数量不同的中成药做测试数据集,通过数据质控、目标片段富集、序列组装、基因注释、去冗余、OTU聚类分析以及短序列mapping等生物信息学处理,建立了基于shotgun metagenomics技术的中成药生物成分物种鉴定的数据分析方法。并将shotgun metagenomics数据分析方法用于青果丸生物成分的物种鉴定,以验证该方法的适用性,并通过此方法对市售青果丸的物种组成进行分子鉴定,为青果丸的质量控制提供一种新的方法。方法:1.用三子散、五子衍宗丸和益母丸三种处方数量不同的中成药样品做测试数据集,在Linux系统下运行数据质控、目标片段富集、序列组装、基因注释、去冗余、OTU聚类分析以及短序列mapping等步骤的命令,以建立基于shotgun metagenomics技术的中成药生物成分物种鉴定的数据分析方法。2.从承德同仁堂药店购买青果丸的八种原料药材(青果、金银花、黄芩、北豆根、麦冬、玄参、白芍、桔梗)以及西洋参药材各一份,通过对药材性状特征进行观察、提取药材DNA、PCR扩增、Sanger测序以及序列拼接、基因注释以及序列比对等数据处理,确保药材基原准确。3.按照《中国药典》上规定的方法自制实验室青果丸参考样品两份,其中一份加入西洋参作为阳性对照,对两份自制样品进行DNA提取及高通量测序,采用第一部分建立的shotgun metagenomics数据分析方法对两份自制样品进行处方成分的物种鉴定,并在Linux服务器上通过调整metaspades和megahit的k-mer值对组装的准确性进行优化,比较ITS2、psb A-trn H、mat K和rbc L的序列组装结果。4.从承德同仁堂药店购买不同厂家的青果丸样品三份,按照第三部分调整后的数据分析方法进行市售样品的分析,并采用MEGAN软件对青果丸中的物种组成进行统计和分类可视化。结果:1.三个样品经数据质控后获得8.0 Gb的数据量,经过富集后获得0.9 Gb数据量,通过序列组装获得了大量的contigs数据,并将序列组装后获得的所有contigs进行合并,去除重复序列后,共获得7,764个唯一的contigs。去除引物并完成基因注释后,共获得了226个contigs。经过聚类分析,共生成169个OTUs,将OTUs与中药材DNA条形码数据库和Gen Bank数据库进行物种鉴定,建立了基于shotgun metagenomics技术的中成药生物成分物种鉴定的数据分析方法。2.青果丸原料药材的DNA质量较高。未能成功扩增白芍的psb A-trn H序列、黄芩、玄参和青果的mat K序列以及北豆根的rbc L序列。对测序下机数据进行分析,共获得28条序列,包括8条ITS2序列,长度为203~261 bp;7条psb A-trn H序列,长度为311~655 bp;6条mat K序列,长度为738~841 bp;7条rbc L序列,长度为553~703 bp。将这些序列与《中国药典中药材DNA条形码标准序列》和Genbank数据库中已经发表的序列进行序列比对,结果显示,上述药材的基原与中国药典规定的一致,表明这些原料药材均为正品。3.在两个实验室自制样品中,共获得104个属于ITS2、psb A-trn H、mat K和rbc L区域的OTUs。其中能够获得八种规定处方成分基原物种的ITS2组装序列:青果(Canarium album)、金银花(Lonicera japonica)、黄芩(Scutellaria baicalensis)、北豆根(Menispermum dauricum)、麦冬(Ophiopogon japonicus)、玄参(Scrophularia ningpoensis)、白芍(Paeonia lactiflora)和桔梗(Platycodon grandiflorum)。此外,blast鉴定结果中还包括了其他生物成分,如一些常见的真菌种类,Colletotrichum(炭疽菌属)和Cladosporium(枝孢菌属)。在psb A-trn H序列的OTUs中,只能获得五种规定处方成分基原物种的完整组装序列,分别是金银花、北豆根、玄参、白芍和桔梗。在mat K和rbc L序列的OTUs中,均获得了八种处方成分基原物种的完整组装序列。此外,通过比较多个k-mer值(21~127)的组装结果,发现在不同的样品中通过不同的软件进行组装,每个marker的结果不完全相同,然而在rbc L序列中,当k-mer取值为21时,两个软件的组装结果都比较差,基本上没有获得正确的contigs,因此,后续研究将采用多个k-mer值(33~127)进行混合成分中的序列组装。对富集数据进行组装、去冗余后共获得3,156个唯一的contigs。去除引物并完成基因注释和聚类分析后,共生成69个OTUs,其中37个属于核基因片段ITS2,32个属于叶绿体基因片段psb A-trn H、mat K和rbc L。4.采用调整后的方法进行数据分析,共生成128个OTUs。在三个市售样品中,除A19样品未检测到桔梗的ITS2序列外,另外2份市售样品均检测到了所有处方成分基原物种的ITS2序列。然而叶绿体序列在不同样品中的鉴定情况略有不同,psb A-trn H未获得麦冬的序列,mat K和rbc L均获得了八种处方成分基原物种的完整组装序列。此外,基于ITS2序列分析,在市售样品中也检测到了许多其他植物物种和真菌的序列,如在HSZY146和HSZY150中检测到了梨属(Pyrus)、小麦类(Triticeae)等序列及一些曲霉菌属(Aspergillus)、镰刀菌属(Fusarium)序列,A19和HSZY146中检测到了青霉菌属(Penicillium)等真菌序列。结论:本研究选择三种处方数量不同的中成药做测试数据集,通过数据质控、目标片段富集、序列组装、基因注释、去冗余、OTU聚类分析以及短序列mapping等生物信息学处理,建立了基于shotgun metagenomics技术的中成药生物成分物种鉴定的数据分析方法。通过收集青果丸原料药材样品、提取DNA和数据分析,使用性状鉴定以及DNA条形码技术实现了原料药材的准确鉴定,为自制实验室样品提供了保证。采用shotgun metagenomics技术对自制样品进行生物成分的物种鉴定,验证了该方法的适用性。另外,通过比较不同k-mer值的序列组装结果,发现对于混合样品的分析,要采用多个k-mer值(33~127)进行序列组装,以达到获得所有处方成分组装序列的目的。通过上述调整后的数据分析方法对市售青果丸样品的物种组成进行分析,发现ITS2、psb A-trn H、rbc L和mat K四种常用DNA条形码组合检测到的生物成分并不完全相同,此外,从shotgun metagenomics数据中获得的ITS2条形码分析,可以在市售样品中发现真菌序列。因此,本研究基于shotgun metagenomics技术成功对青果丸市售样品进行鉴定,为青果丸质量控制提供一种新方法。