论文部分内容阅读
目的:位列三大传统医学之一的印度医学不仅在印度本地基本卫生保健中发挥重要作用,而且随着世界对植物性医疗系统的追求,印度医学特别是印度草药开始登上世界的舞台。草药需求的急剧增长,随之而来的是对草药掠夺式的开发和药材质量的混乱。核基因组、转录组、叶绿体基因组(cp-G)、DNA条形码等基因组数据是草药健康可持续发展的强大支撑,可有效促进草药的良种选育、规范化种植、异源合成有效成分、正确鉴定、亲缘关系解析等问题的解决。然而目前草药的基因组数据相对较少,且分散在存储各种生物的分子数据的公共数据库中,进而阻碍了研究人员利用基因组数据对草药开展各项研究。IndianPharmacopoeia(IP,《印度药典》)是由印度药典委员会颁布的印度药品标准的国家法典。经过我们的初步统计,IP草药及草药制品专项下收录了具有明确拉丁名的草药物种66个,为了使基因组数据能更好的为印度草药服务,基于IP收载的草药物种名单我们建立了《印度药典》草药基因组数据库(IPGD)。
方法:IPGD主要采用LNMP(Linux+Nginx+MySQL+PHP)架构的服务器架构模式搭建;本研究产生的cp-G的获取、组装和分析主要采用二代测平台和各种生物信息分析方法和软件(如FastQC,Skewer,BLAST,ABySS,Plann,MAUVE等)。
主要研究结果
1)本研究完成了IPGD(V1.0)的构建,该数据库为非商业性数据库,可通过互联网免费访问(http://ipgenome.org/),用户可以在该数据库查看、浏览IP草药基因组数据及数据信息、物种简介,进行分子鉴定,下载、上传相关数据。目前该数据库共收录了66个草药物种的基本简介、62个物种的1529条ITS2、56个物种的583条psbA-trnH、52个物种的69条cp-G、16个物种最优的核基因组数据,以及核基因组组装数据未公布的12个物种的857条基因组二代测序原始数据和31个物种2075条转录组二代测序原始数据的信息。不同数据类型条目下存储了不同的数据格式,物种简介项下提供了对应药材及植株的基本信息和图片。该数据库允许并鼓励用户下载、注册账户提交相关数据,还提供了基于BLAST软件和DNA条形码、cp-G序列的物种鉴定功能,为IP草药及其相关产品的分子鉴定提供了平台。此外,为方便信息查找,该数据库设置站内文本搜索功能,加之物种简介项下同义名称的整理,避免了因名称叫法不同造成的信息漏查。
2)数据库中25种草药的cp-G由本研究首次公布,这些数据的组装、分析结果如下:①多数物种cp-G在大小和结构上十分保守,大小多介于150~160kb之间,结构为典型的四段式结构;②IRa区丢失导致胡芦巴、西黄芪的cp-G最小(约120kb),IR区扩张导致阿拉伯金合欢、具芒小檗的cp-G最大(约170kb);③cp-G中注释出的基因多为与光合作用和转录、翻译相关的基因;④基因个数多在135个左右,以阿拉伯金合欢、具芒小檗最多(149、141个),胡芦巴、西黄芪最少(111、111个);⑤共统计到rps16、accD、rpl32、rpl33、infA、ycf15等10个基因在不同物种存在缺失或假基因化的情况;⑥注释出的18个含有内含子的基因在某些物种中存在内含子增加、减少甚至消失的情况;⑦有些基因对在全部或部分物种中存在重叠区域;⑧多数物种的cp-G在基因排序上与烟草一致,胡芦巴和西黄芪部分LSC区和整个SSC区存在序列倒位。
3)完成了以上25种草药cp-G的蛋白编码基因的RNA编辑位点预测和重复序列分析。特定科属分析揭示了发生在黄细心族accD基因的假基因化、rpl23基因的扩张,紫茉莉科rpl2基因内含子的丢失,茜草族rpl33基因的假基因化,以及马利筋亚科accD、ycf1基因的扩张和ycf15基因的缺失,并发现马利筋亚科accD、ycf1基因的扩张与重复序列的线性关系。
结论:本研究首次公布了25种草药的cp-G,建立了首个专门收录IP草药基因组数据的数据库,该数据库是一个集数据和数据信息存储、草药物种描述、分子鉴定等多功能为一体的数据库,为研究人员及时获取组学数据公布动态并充分利用提供了便利,进而为世界草药健康可持续发展提供了分子支持。
方法:IPGD主要采用LNMP(Linux+Nginx+MySQL+PHP)架构的服务器架构模式搭建;本研究产生的cp-G的获取、组装和分析主要采用二代测平台和各种生物信息分析方法和软件(如FastQC,Skewer,BLAST,ABySS,Plann,MAUVE等)。
主要研究结果
1)本研究完成了IPGD(V1.0)的构建,该数据库为非商业性数据库,可通过互联网免费访问(http://ipgenome.org/),用户可以在该数据库查看、浏览IP草药基因组数据及数据信息、物种简介,进行分子鉴定,下载、上传相关数据。目前该数据库共收录了66个草药物种的基本简介、62个物种的1529条ITS2、56个物种的583条psbA-trnH、52个物种的69条cp-G、16个物种最优的核基因组数据,以及核基因组组装数据未公布的12个物种的857条基因组二代测序原始数据和31个物种2075条转录组二代测序原始数据的信息。不同数据类型条目下存储了不同的数据格式,物种简介项下提供了对应药材及植株的基本信息和图片。该数据库允许并鼓励用户下载、注册账户提交相关数据,还提供了基于BLAST软件和DNA条形码、cp-G序列的物种鉴定功能,为IP草药及其相关产品的分子鉴定提供了平台。此外,为方便信息查找,该数据库设置站内文本搜索功能,加之物种简介项下同义名称的整理,避免了因名称叫法不同造成的信息漏查。
2)数据库中25种草药的cp-G由本研究首次公布,这些数据的组装、分析结果如下:①多数物种cp-G在大小和结构上十分保守,大小多介于150~160kb之间,结构为典型的四段式结构;②IRa区丢失导致胡芦巴、西黄芪的cp-G最小(约120kb),IR区扩张导致阿拉伯金合欢、具芒小檗的cp-G最大(约170kb);③cp-G中注释出的基因多为与光合作用和转录、翻译相关的基因;④基因个数多在135个左右,以阿拉伯金合欢、具芒小檗最多(149、141个),胡芦巴、西黄芪最少(111、111个);⑤共统计到rps16、accD、rpl32、rpl33、infA、ycf15等10个基因在不同物种存在缺失或假基因化的情况;⑥注释出的18个含有内含子的基因在某些物种中存在内含子增加、减少甚至消失的情况;⑦有些基因对在全部或部分物种中存在重叠区域;⑧多数物种的cp-G在基因排序上与烟草一致,胡芦巴和西黄芪部分LSC区和整个SSC区存在序列倒位。
3)完成了以上25种草药cp-G的蛋白编码基因的RNA编辑位点预测和重复序列分析。特定科属分析揭示了发生在黄细心族accD基因的假基因化、rpl23基因的扩张,紫茉莉科rpl2基因内含子的丢失,茜草族rpl33基因的假基因化,以及马利筋亚科accD、ycf1基因的扩张和ycf15基因的缺失,并发现马利筋亚科accD、ycf1基因的扩张与重复序列的线性关系。
结论:本研究首次公布了25种草药的cp-G,建立了首个专门收录IP草药基因组数据的数据库,该数据库是一个集数据和数据信息存储、草药物种描述、分子鉴定等多功能为一体的数据库,为研究人员及时获取组学数据公布动态并充分利用提供了便利,进而为世界草药健康可持续发展提供了分子支持。