论文部分内容阅读
microRNA(miRNA)是近年来生物学研究的热点,这种~22nt的非编码小RNA通过结合到其对应靶基因的mRNA上抑制基因的正常翻译,是生命活动中基因调控的一种重要方式。生物信息学在miRNA上的应用,很大一部分在pre-miRNA的预测上。由于目前的pre-miRNA计算机预测多是基于同源性分析的方法,可用于动物、植物的pre-miRNA预测,但是最近的研究表明,病毒间0miRNA 同源性很差,所以基于同源性分析的方法并不适用于病毒的pre-miRNA预测上。本研究仅从所有pre-miRNA的结构保守性(形成一定的发央结构)和热力学稳定性(发夹结构具有较低的自由能)出发,不考虑序列同源性,建立了一种适合病毒pre-miRNA的预测方法。
本研究结合了srnaloop 和 RNAfold两种程序。首先使用srnaloop在整个基因组上搜索hairpin-like序列,RNAfold对这些序列进行折叠,预测出RNA二级结构和最小自由能,接着对RNAfold的输出结果做进一步的数据挖掘,挑选出单环发夹结构的序列,使用1个热力学属性(自由能)定义4个发夹结构属性进一步考察这些序列的二级结构状态。整个预测方法中添加了其它一些过滤模块,包括编码区过滤、GC含量过滤、简单重复序列过滤和冗余序列过滤等模块,提高了预测方法的准确性。本论文建立的病毒pre-miRNA预测方法在预测基因组上pre-miRNA的同时,可以把预测结果按其在基因链上的位置分为三个类别,即内含子区域、基因互补链区域和基因间区域,并提供了相应位置的基因注释信息。为了检验预测方法的效果,本论文对8种疱疹病毒(含有已证实的miRNA)进行了pre-miRNA的预测,测试参数的选择参考了miRBase数据库中已知pre-miRNA的数据统计以及病毒已知pre-miRNA的数据统计。结果显示,预测方法可以命中病毒已知pre-miRNA的大部分,说明本方法具有一定的可靠性。最后在Linux环境下架设了病毒pre-miRNA的web预测平台,界面友好,用户可以使用web浏览器直接登陆,在提交病毒基因组文件和简单的参数设置后,即可获得pre-miRNA预测结果和对应位置的基因注释信息。