论文部分内容阅读
背景:非编码RNA在许多生物过程中对基因的表达起着重要的调控作用。同时,非编码RNA调控的异常与许多疾病有关,例如:神经性疾病、心血管疾病和癌症等。因此,非编码RNA靶点分析和注释对生物医学研究者进一步阐明非编码RNA调控的分子机制和临床发病原理有重要作用。小RNA测序技术作为一种功能强大且高效的转录组研究新方法已经在非编码RNA的研究中得到了广泛的应用。然而,高通量测序所产生的海量数据的处理和分析对生物信息学来说仍然是一个很大的挑战。因此我们开发了mirTools2.0:支持多物种的非编码RNA综合分析软件。
目的:
1.升级之前开发的识别miRNA并注释其作用靶点的miRNA分析软件mirTools1.0,使之能够检测的非编码RNA种类更加全面,并且能够预测更多种类的未知非编码RNA;
2.对靶基因提供一般注释的基础上,开发界面友好、易用的基因本体论、KEGG代谢网络和蛋白与蛋白相互作用分析模块,方便用户研究非编码RNA靶基因代谢网络上的相互关系;
3.添加更多的参考基因组,以支持研究人员更多物种的样本;
4.开发成组样本的分析,使用户能够分析多组样本间的非编码RNA;
5.用户可以方便地根据样本分析的ID号再次查看、下载自己以前的分析结果并进行相关后续分析。
方法:
1.去除测序数据中的接头序列、polyA尾巴等低质量值短序列;
2.用SOAP2将短序列在参考基因组上进行定位,并探索出适用于非编码RNA的最优默认比对参数;
3.用MegaBLAST将对比对上的序列与非编码RNA数据库miRBase和Rfam进行比较,确定出其中已知的非编码RNA;
4.将未能与现有非编码RNA数据库miRBase和Rfam中数据比对上的序列用miReap或者miRDeep预测软件进行全新miRNA的预测;
5.对已知的和全新发现的miRNA进行靶基因分析,并对靶基因及相关蛋白进行GO,KEGG代谢通路和蛋白相互作用的注释,并且友好的展示给用户;
6.对多样本进行每种非编码RNA单独的差异表达分析,以便用户分析出有意义的差异表达非编码RNA;
7.使用Cytoscape对蛋白与蛋白相互作用进行友好的,实用的可视化展示。
结果:
1.本研究中,我们成功开发了基于新一代转录组测序技术的非编码RNA识别、预测、注释的在线平台—mirTools2.0;
2.mirTools2.0是一个支持miRNA、tRNA、snRNA、snoRNA、rRNA和piRNA等非编码RNA的识别、预测和注释的全基因组范围转录组数据的综合分析平台;
3.mirTools2.0能够进行实验组之间多样品的非编码RNA的差异表达比较,并且支持基因本体论、KEGG代谢网络和蛋白与蛋白相互作用分析;
4.使用Morin人类胚胎干细胞和胚胎体系的小RNA测序数据对mirTools2.0进行测试。mirTools2.0能够准确找到miRNA及其他非编码RNA,并成功地预测了miRNA的靶基因,并对靶基因进行了GO,KEGG代谢通路和蛋白间相互作用的注释。我们检测到的差异表达的miRNA与Morin文章共有的差异表达miRNA相关性系数R2为0.9948。
结论:mirTools2.0的成功开发为小RNA测序技术产生的海量数据的分析提供了一定的帮助。他能够进行非编码RNA的识别、预测、靶基因预测及高级注释。通过Morin人类胚胎干细胞和胚胎体系的小RNA测序数据的测试表明,mirTools2.0是一款全面,强大,易用的非编码RNA分析工具。随着高通量测序技术的高速发展,mirTools2.0将会有对非编码RNA的研究做出更多的贡献。