论文部分内容阅读
微卫星(Microsatellite)是基因组上由1-6个核苷酸为单位组成的重复,又称串联重复序列(Short Tandem Repeat,STR)和简单重复序列(Simple Sequence Repeat,SSR)。在基因组上由于微卫星具有普遍的多态性,是进行群体遗传变异分析、物种起源与进化研究、基因定型(genotyping)、指纹鉴定(fingerprinting)、法医科学(forensic science)、动植物育种等的较好的遗传标记而受到广泛关注。分析微卫星在基因组上的含量、分布及其相关信息,可提高微卫星应用的预见性。特别是目前已有更大的基因组序列数据库,这些研究将获得新的、更为准确并且具有普遍意义的结果。 本研究采用Per1为编程语言结合数据库技术等方法,对29个真核生物基因组和1180个原核生物基因组的DNA序列上长度超过12的微卫星进行了大规模的计算和统计分析。主要探索了如下几个问题:微卫星在染色体上的分布、在基因组范围内的含量和与遗传重组率的相关性、在真核和原核基因组上分布的共性和个性、微卫星的计算多态性与实验室PCR多态性的关系以及微卫星在孤儿基因和非孤儿基因中的分布性质等。通过这些研究,将为生物遗传、变异和进化发育提供重要的理论和应用基础。此外,还对微卫星的生物信息学本地计算的方法和基于Internet的远程WEB计算方法进行了探讨。取得的主要结果如下: 1.微卫星在染色体上的分布,在着丝粒及其附近区域的基因组序列中微卫星含量显著地低于染色体上其它区域,远离着丝粒部分的微卫星含量一般都比较高。即使是端着丝粒或者近端着丝粒,其微卫星含量都明显的比较低,表现了着丝粒的优先性。在拟南芥、水稻和人类基因组上的计算分析都得到非常一致的结果,但对于酵母等单细胞真核生物并不遵循这一规律。 2.在人类和水稻基因组中,计算最近两标记之间的微卫星含量与基因组在此区域的以centi-Morgan(cM)为单位的遗传重组值为数据对组成样本进行回归相关性分析。计算发现,在水稻基因组中,其spearman秩相关RS统计量等于0.3217,样本容量为2725,其两尾否定概率等于零。在人类基因组上也得到了Spearman RS统计量等于0.1111,样本容量等于2759,其两尾否定概率等于3.9045×10-9。 3.对29个真核和1180个原核生物基因组中的微卫星进行了计算和统计分析,结果表明:(1)微卫星在真核基因组中的含量一般比原核基因组的高,也有很多物种例外。(2)在真核基因组中微卫星含量在物种之间变异系数不是很大,29个真核物种的平均微卫星含量的变异系数为75%,而以病毒为代表的原核生物的变异系数为91%,推测原核生物是微卫星累积的物种,而真核生物为微卫星含量稳定的物种。(3)微卫星的总motif数量在原核物种中都比较少,在真核物种中一般比较多,那些微卫星含量超过真核物种平均水平的原核物种,其微卫星只是在局部位置的堆积,其motif数量仍然很小。(4)在真核和原核基因组中微卫星的motif数量与基因组大小都成正相关,在原核物种中微卫星含量与基因组大小也成正相关,但在真核基因组中,微卫星的含量与基因组大小不相关。 4.真核生物的微卫星分布还具有以下特点:(l)微卫星motif在物种之间使用频率是不一样的,只有A/T微卫星才是所有真核物种所共有的,没有任何一个微卫星motif是某一个物种所特有的。(2)微卫星motif越长,重复次数越少。(3)不同长度的微卫星在基因组内的变异性能是不一样的,长度小于3的微卫星在几乎所有的真核基因组内都有变异,而大于3的则有些变异性非常大,而有的则变异系数等于零;从微卫星总的变异性能看,一般比较长的微卫星变异系数较大。(4)海洋生物的微卫星motif使用频率与陆地动植物有所区别,尤其是长度短于5的微卫星。在海洋生物中,富含c/g的微卫星在基因组中变异比较大,而在陆地生物中,富含a/t的微卫星变异较大。 5.对微卫星在水稻孤儿基因与非孤儿基因之间的关系进行了计算和统计分析,结果表明:水稻孤儿基因总数为28532条序列,占50.9%,而非孤儿基因为27524条,占49.1%;孤儿基因中微卫星含量明显高于非孤儿基因;在组成上,不论在孤儿基因还是在非孤儿基因中,三核昔酸微卫星的含量都超过了50%,孤儿基因中的含量为68%,明显高于非孤儿基因的58%。 6.对水稻基因组中各成分的微卫星进行统计分析,结果表明:微卫星在基因的编码区和非编码区都有分布,主要是数量上的差异;在数量关系上,非编码区的微卫星含量大大高于编码区,但是三核营酸微卫星相反;在水稻EST中微卫星含量非常丰富;在微卫星motif长度使用上,二核普酸微卫星的含量最高,且以at八a微卫星占大多数;比较釉稻和粳稻基因组上的微卫星,发现它们在含量、组成和mot if使用频率上都非常相似。7.本文对研究中所涉及的计算方法也进行了大量的探索。用Perl对包括FASTA、GENBANK、xML和BLAST报告等转化和解析进行了编程;还对到TIGR、NCBI等进行大规模的Internet远程比对计算进行了编程;使用代理服务器的方法解决了NCBI 50个同时在线BLAST的限制;采用Perl Socket的无阻塞1/0编程技术,解决了Internet远程大规模并行BLAST计算的问题;在程序设计