论文部分内容阅读
从系统科学的角度看,生命体是一个开放的复杂巨系统。DNA、RNA和蛋白质都在生命活动中扮演着不同的角色。近年来,新发现了一类长约21~24nt的非编码小分子RNA——MicroRNA(miRNA),miRNA可以通过与靶基因mRNA的特定位点结合,抑制该蛋白的合成或诱导该mRNA的降解,从而参与基因的表达调控。miRNA的一个特点是它的前体常形成分子内茎环结构,成熟的miRNA来自于此茎环结构的一条臂上,并且不能包含大的内环和突环,特别是不能包含大的不对称的内环。miRNA通常位于基因间隔区(intergenicregion,IGR),这说明它们来自独立的转录单位。但是也有相当一部分miRNA来源于pre-miRNA的内含子。一些miRNA的基因结构和功能在进化中呈现高度的保守性。
由于miRNA具有非常重要的调控功能,因此,2001年后,寻找新的miRNA成为生命科学领域的一大热点。寻找miRNA基因的方法包括实验途径和生物信息学途径,两种途径必须结合使用,才能比较准确地找到miRNA基因。到目前为止,miRBase上公布的miRNA总数有3500多种,然而在不同生物中仍有大量的miRNA基因尚未鉴定,每种生物体中miRNA的基因总数还未知,生物信息学分析手段为发现新的miRNA基因提供了有效的方法。目前国际上较为普遍使用的两个计算机分析工具是MiRscan和miRseeker。前者已用于线虫和脊椎动物候选基因的分析,后者则用于果蝇及昆虫基因组候选基因的系统分析。像NCBI的BLAST软件以及mfold软件等也是利用生物信息学方法寻找miRNA常用的软件工具。
由于在克隆测序过程中,测出的序列中有相当比例是来自其他已知RNA的降解片段或其他生物的污染,并且成熟的miRNA应具有保守的发夹结构。针对这些问题,我们开发了一个预测与搜寻miRNA基因的完全自动化的系统MiRdetector。文中详细介绍了用C++语言编码的MiRdetector系统的总体设计流程,着重讲解了实现系统的两个重要算法:茎环结构判断算法和基因组定位算法。并且用水稻miRNA基因对系统的预测精度进行了检验,检验证明系统的假阳性率较低。由于MiRdetector系统适用于各种生物,对于动、植物,只要改变系统参数即可,并且易于处理大批量数据,因此它将是miRNA研究的有用的辅助工具。