论文部分内容阅读
微RNA(microRNA或miRNA)是一种22 nt左右的非编码小RNA分子,主要存在于真核生物中,通过与mRNA靶位点结合抑制靶基因表达或者引起基因沉默。植物miRNA在植物形态建成、发育进程、环境适应等方面起着重要的作用。动物miRNA影响细胞生长、分化及调亡,与一些人类疾病如癌症、心脏病等密切相关。对miRNA的研究是生命科学领域的研究热点,已发现了17341个miRNA,新发现的miRNA数量还在高速增长。新一代测序技术(Next-Generation Sequencing,NGS)业已成为研究小RNA转录组的重要手段,为miRNA的研究开创了崭新的局面。通过深度测序可以系统地在小RNA转录组中鉴定miRNA,分析miRNA的表达模式。然而,从深度测序所获得的大规模测序数据中鉴定出miRNA仍然是一项严峻的挑战。生物信息学在小RNA转录组的研究中起到了至关重要的作用。目前,能用来处理高通量数据的miRNA预测软件是非常少见。本文的目的就是开发一套小RNA转录组深度测序的miRNA预测工具包DmiR。DmiR工具包是基于Perl语言开发,具有跨平台特性,当前的版本号为v0.7.6。对小RNA转录组进行注释分类后,可用DmiR来分析未注释的小RNA。在DmiR中集成了生物信息学软件Bowtie、RNAfold以及RNALfold。对整套miRNA预测工作流进行了整合,包括:sRNA与参照基因组进行比对、截取sRNA及其侧翼序列,利用RNALfold预测候选的miRNA前体,对RNALfold结果进行筛选和处理,通过miRNA和miRNA*之间的匹配程度进行筛选。DmiR可以使研究人员一键式地完成相关miRNA预测流程。miRNA预测工作流整合工具包DmiR为推动小RNA转录组miRNA研究起到了积极作用。为了对DmiR的各种参数作出合理的设置,需要充分了解miRNA及其前体的各种特征。这些信息仅从文献获取是远远不够的,需要对miRBase上所有已知的miRNA进行统计分析,并且分别分析三种动物,人类、小鼠和果蝇,和三种植物拟南芥、水稻和琴叶拟南芥,以比较动植物miRNA特征的差异。结论如下: DmiR的参数fl在植物中应设得比动物要高。在动物中,fl可设为150,或200,而植物需要设到250,甚至300以上。miRNA与miRNA*折叠匹配错配数在7个碱基以内的miRNA前体占了总数的96%。因此,可将un|unfold参数默认为7,在植物中,该参数值还可以下调。最后为了测试DmiR的准确率,选择miRBase中已知的miRNA作为测试对象,分别在三种模式动物人类、小鼠和果蝇,三种模式植物拟南芥、琴叶拟南芥和水稻中进行测试。测试结果显示,DmiR的准确率普遍在70%以上,在植物中,当参数调到最适范围,准确率可达到90%以上,准确性较高。DmiR不仅在操作上简单易用,可一键式完成整套miRNA预测工作流,为小RNA转录组的miRNA研究提供了极大便利。DmiR将会成为小RNA转录组研究中非常有用的工具,具有一定的科学价值。