论文部分内容阅读
基因是基因组中的基本功能单元,因而基因中发生的微小变化都有可能关系到生物体的生存和适应能力。在宏观世界中,物种在不断的演化着,与之相对应的微观世界也同样发生着基因的演化,而测序技术的发展为我们研究基因的演化创造了千载难逢的机会。为此我们选取了人类及其他多细胞动物相对保守的同源基因作为主要研究对象,从结构、碱基组分和变异规律三个方面来研究这些基因的演化模式。 通过对895个人、鸡、斑马鱼、海鞘、果蝇和线虫所共有的蛋白编码基因的研究,及对它们各自基因组中所有基因的分析,我们揭示了从无脊椎动物到脊椎动物、冷血动物到温血动物的变化过程中,形态学复杂性与基因复杂性存在一致的关系。在整个过程中,基因中的非编码区的含量不断增加,尤其是内含子和3末端非翻译区(3 UTR),而温血动物的非编码结构的GC含量,相对于冷血动物有一个快速上升的过程(5 UTR尤为明显)。同一基因组长度和GC含量相关性的分析结果显示了,相对于5 UTR,3UTR和内含子在长度和GC含量方面有着更高的相关性,并且在不同物种中,随着一个基因中总内含子长度的增加,内含子的GC含量逐渐趋近于一个恒定的范围(~33%-40%)。 此外,我们还研究了哺乳动物与果蝇内部共有的蛋白编码基因的突变规律,并且揭示了一个蛋白质演化共有的模式,即一个保守的内核,和两个多变的末端区域。在蛋白质的两端会积累大量的非同义突变和插入缺失,致使这些区域有着较高的ω值和相对较低的ds值。因此可以认为,蛋白质的两端作为演化的最前沿更容易发生氨基酸的替换、插入/缺失以及移码突变。单个外显子的突变分析表明,两端的外显子与蛋白质总体规律相一致,而内部的外显子呈现出另一种突变规律,两端相对保守中部较为易变,这可能与这些外显子两端的剪切增强序列相关。同时两端外显子选择性剪切的比率也要高于内部外显子,这和我们的基本结论相一致。 最后,我们研究了人类癌症基因(主要是突变高发的癌症基因)的变异规律,发现作为体细胞突变的癌症基因的突变,与我们之前研究的物种间的减数分裂突变有着很不同的特性。最主要一点是插入/缺失在这些突变中的高发生频率和非随机分布。另外原癌基因和抑癌基因在插入/缺失的大小分布上也有非常显著的差别,和抑癌基因相比,原癌基因拥有极高比例的长度为三的整数倍的插入/缺失,并且突变在CDS上更倾向于偏态分布。因此,插入/缺失很可能在癌症发生起到非常重要的作用。