论文部分内容阅读
内含子是存在于基因中的核苷酸序列,广泛存在于真核生物中。目前内含子的起源与演化机理尚不清楚,在真核生物蛋白质编码基因中首次发现内含子之后的近几十年来,关于内含子在真核生物基因组中的起源与演化引起了广泛的关注。至今仍存在两种对立的学说,即“内含子早现说”和“内含子晚现说”,对内含子的起源与演化机理作出了不同的解释。内含子的演化与真核生物基因组的进化密切相关,了解内含子的起源与演化机理对于理解真核生物基因的进化有重要的意义。面对来自于不同生物、长短不一、碱基序列差别很大的内含子,常规进化分析方法无法知晓它们是否是从更长的祖先序列开始、经由一边发生碱基突变一边缺失部分碱基演化而来,还是从更短的祖先序列开始、经由一边发生碱基突变一边插入部分碱基演化而来。已有序列模拟大多是用来推测基因中氨基酸编码序列的演化,并不太适用于模拟内含子序列的演化,因而需要寻求新的分析方法来探究内含子序列的演化机理。本研究通过设计“突变-缺失(Mutation-and-Deletion,MD)”和“突变-插入(Mutation-and-Insertion,MI)”两种模型来模拟内含子的演化过程,用于对真核生物基因内含子序列的演化开展模拟研究,所取得的主要结果如下:(1)使用C++计算机语言设计、编写了“突变-缺失”和“突变-插入”两种演化模型程序。“突变-缺失”程序以一条较长的序列为起点,按照每突变一定数量碱基后即缺失一定长度DNA片段的方式生成新的序列;“突变-插入”程序以一条较短的序列为起点,按照每突变一定数量碱基后即插入一定长度DNA片段的方式生成新的序列。两种程序均设置了5个可变参数,分别为:LAS1(第一祖先序列长度)、LAS8(第八祖先序列长度)、M1(每1单位树枝长度碱基突变数)、LI/D(每次插入或缺失的碱基数)、MI/D(每次突变的碱基数)。(2)以来自不同目(order)的11种昆虫为研究对象,将其Da(Daughterless)基因内含子序列做多序列比对后构建ML(Maximum Likelihood)系统发育树,得到这11条昆虫内含子序列的5个特征值如下:LMSA(多序列比对的长度)=3665 bp,RT92+G(T92+G替换模型下的转换与颠换比例)=1.54,D?(总平均距离)=1.52,SED?(总平均距离标准误)=0.16,TSML(ML进化树拓扑分值)=22。(3)依照L16(4*5)正交表分别设定了两种程序中5个参数的不同水平值,建立了16个MD模型和16个MI模型用于模拟内含子序列的演化。对各个模型所得序列特征值的统计分析表明,在MD模型中,多序列比对的长度LMSA受模型参数LAS1、LAS8、M1的影响显著,总平均距离D?受模型参数M1、LI/D、LAS1和MI/D的影响显著,总平均距离标准误SED?受模型参数M1、LI/D和MI/D的影响显著,进化树拓扑分值TSML受M1的影响显著;在MI模型中,LMSA受MI/D和LAS1的影响显著,转换与颠换的比例R受LI/D和M1的影响显著,D?受LAS1的影响显著,TSML受LAS1、LI/D和MI/D的影响显著。(4)根据各模型参数对序列特征值的影响曲线,对模型参数进行了优化,据此设定不同参数组合后再用MD模型和MI模型进行序列演化模拟。结果表明:设置适当参数的MD模型生成的序列与昆虫内含子序列的各特征值之间无显著差异,而从所尝试所有不同参数设置的MI模型中未得到无显著差异的序列特征值。上述结果表明,本研究中昆虫内含子序列应该是从较长的祖先序列通过碱基突变伴随着片段缺失逐渐演化而来,与“内含子早现说”阐述的演化机理更为符合。本研究设计、编写了新的计算机程序用于探讨内含子序列的演化机理,获得的结果可用于检验“内含子早现说”和“内含子晚现说”中的哪一种更为符合内含子序列的演化路径,对进一步揭示内含子序列的演化机理具有重要意义。