论文部分内容阅读
本文研究了啮齿类动物大鼠与小鼠内含子及18种哺乳动物基因组中插入,缺失和替换发生的速度与模式。研究结果表明在大鼠和小鼠内含子中单个碱基的插入与缺失都是最多的,并且缺失比插入发生的多,即在内含子中存在缺失偏好性。在内含子中的缺失偏好性支持了内含子中的插入由于降低转录和剪切效率而比缺失更加有害的假说。插入与缺失发生的次数随着其长度的增加而迅速减少,二者的理论分布都符合Power-law。在大鼠内含子中AT→GC的替换比GC→AT的替换多;但是在小鼠内含子中却是GC→AT的替换比AT→GC的替换多。在大鼠与小鼠内含子中的替换模式表明大鼠与小鼠内含子的组成及GC含量都处于非平衡状态。在大鼠和小鼠内含子中,每个位点平均发生0.014个插入缺失;插入缺失富含碱基A和T;且在重复片段中发生的频率比较高。插入和缺失的碱基组成和大鼠小鼠内含子的碱基组成是不同的。在单个碱基的插入缺失中,碱基G出现的频率显著高于期望值;在两个碱基的插入缺失中,二核苷酸CG出现的频率也显著高于期望值。而且,包含CG的三核苷酸在插入缺失中发生的次数也明显高于期望值。这些结果表明在大鼠与小鼠内含子的插入与缺失中存在CG偏好性。小鼠内含子的缺失的CG含量比插入的CG含量高,而大鼠内含子中缺失的CG含量却比插入的CG含量低,这意味着大鼠内含子的CG含量相对小鼠内含子的GC含量在增加。在小鼠中有18894个插入和28051个缺失包含重复片段,在大鼠中有16666个插入和40377个缺失包含重复片段。在散布重复序列中,短散布重复序列(SINEs)和长散布重复序列(LINEs)出现的最多;长末端重复序列(LTR)出现的较少,而DNAelements出现的最少。散布重复序列在大鼠和小鼠内含子中分别占插入序列总长度的33%和35%;散布重复序列在大鼠和小鼠内含子中分别占缺失序列总长度的18%和15%。Alu/B1和B2-B4在短散布重复序列中发生的最多;LINE1在长散布重复序列发生的最多;MaLRs和ERV.classⅡ在长末端重复序列中出现的最多;MER1.type在DNA elements 中出现的最多。在哺乳动物基因组中单个碱基的插入与缺失都是最多的,并且缺失比插入发生的多,即在基因组中存在缺失偏好性。插入与缺失发生的次数随着其长度的增加而迅速减少,二者的理论分布在所有哺乳动物基因组中都符合Power-law。我们同时也证明了在基因组的进化过程中,插入和缺失比替换的贡献更大。