论文部分内容阅读
表观遗传学主要包括DNA甲基化、小分子RNA、非编码RNA和RNA编辑等,在模式植物的研究已表明其与发育调控具有紧密的联系。毛竹(Phyllostachys edulis)作为一种具有重要经济和生态价值的多用途优良竹种,其快速生长和超长花期等特有性状一直让研究者为之着迷,而相对其他模式植物毛竹的表观遗传学研究却一直滞后。近年来,随着测序技术的迅猛发展,毛竹基因组质量得到大幅提升。大量毛竹表观遗传学数据的发表,让研究者有可能对毛竹进行更加全面的表观遗传学分析,但是目前缺乏一个统一且界面友好的数据库进行深入的数据挖掘。因此构建一个对大量表观遗传学数据进行分析研究、整理储存的数据库变得必要和紧迫。本项目对课题组产生的毛竹不同时期材料的重亚硫酸氢盐测序数据(BS-seq)、转录组测序(RNA-Seq)和小分子RNA测序等多组学数据进行统一流程分析、整理和储存,并辅以LAMP系统框架、HTML5/CSS/Javascript前端、Python/R后端、My SQL关系型数据库系统等Web技术共同构建了毛竹表观遗传学数据库,以满足不同毛竹表观遗传学研究者对在线数据检索、数据可视化、引物设计、RNA编辑位点预测、在线作图等多种功能需求。用户可以选择任意基因名、序列位置、基因序列等多种参数检索毛竹的基因组、甲基化图谱、circ RNA、mi RNA、转录组、和u ORF等信息。此外数据库还引入了强大的Jbrowse可视化软件和BLAST比对软件,允许用户查看和比对参考基因组序列、基因注释信息、u ORF信息、DNA甲基化组、转录组、circ RNA、以及小RNA的数据信息。除了本课题组的数据外,数据库还整合了其他单位已发表的各种毛竹表观组学数据,提供了多达67个毛竹表观遗传相关组学数据以供用户下载。数据库的网址如下:http://forestry.fafu.edu.cn/db/Phe Epig。RNA编辑作为一种重要的表观遗传学调控,在毛竹中尚未有报道,本论文结合毛竹的单核苷酸多态性(SNP)共预测得到14855个细胞核内RNA编辑位点,分析表明相比于SNP事件RNA编辑更偏向于G/C碱基的编辑,同时也具有潜在调节RNA合成的功能,影响分布最为广泛的细胞器内的编辑事件。除此之外分析结果还表明细胞器内RNA编辑与毛竹开花联系紧密,而在毛竹年幼时期很可能参与了细胞膜功能的形成。在毛竹的叶绿体等细胞器中的RNA编辑预测分析中,共预测出37个编辑位点,其中在ndh类基因中发生编辑频率较高,同时发现对亮氨酸的编辑有着较高的偏好性。为了方便用户预测自己数据中的RNA编辑位点,本论文利用了支持向量机(SVM)机器学习算法构建了一个在线预测工具,该工具可以根据用户上传的植物非核基因序列预测其细胞器的RNA编辑位点,预测模型具有很高的准确性。除了位点预测工具,本论文还有针对性的开发了一些方便竹类分子生物学研究的生物信息学工具,用户通过网站可实现提交自定义序列进行竹类VIGS设计、CRISPR/Cas9靶序列设计,提交序列进行联配可视化等功能,得以让用户根据实验目来选择特定基因进行实验设计。综上所述,本项目为毛竹科研人员提供了一个集成多组学表观数据和丰富生物信息学程序的多功能数据库平台。