论文部分内容阅读
核糖体内转录间隔区2(internal transcribed spacer 2,ITS2)是被子植物分子系统学使用最多的分子标记之一,也是目前唯一被广泛使用的核基因标记。值得注意的是ITS2转录后的rRNA以二级结构的形式发挥重要功能。在功能约束下,其二级结构一侧配对碱基突变后,另一侧与它互补的碱基也要发生相应的替换,以维持结构的稳定性,这种特殊的碱基突变现象为碱基补偿进化(compensatory base-pair change,CBC)。根据CBC突变方式可推测:ITS2配对区突变一次,碱基改变两次。CBC现象表明系统发育分析所依据的“碱基位点突变的独立性和随机性”基本假设并不完全适用于ITS2序列。因此,深入研究ITS2二级结构约束下的分子突变的模式,构建新的RNA进化模型,可进一步提高基于ITS2的系统发育分析的准确性。本研究选取13741条ITS2序列,包括55科、80属、3934种被子植物,基本覆盖了被子植物目的多样性。我们以属为单位,使用LocARNA软件进行基于二级结构的序列比对与共有二级结构预测,获得ITS2序列-结构矩阵,根据共有结构信息,确定ITS2配对区和非配对区。在此基础上我们分别进行了三方面的生物信息学分析:(1)确定AC介导的CBC发生的真实性及发生过程:使用RNAstat软件将ITS2序列-结构矩阵转化为28字符矩阵,以便更准确地检测碱基配对状态;使用PHASE3.0构建进化树,将检测到的AU/AC/GC碱基配对标注到进化树上,使用Fitch方法确定其进化方向。(2)检验CBC各过程发生的频率和速率:在PHASE3.0软件包下,使用16种RNA替换模型和2种传统的DNA模型,通过最优模型检测,获得配对区与非配对区最优进化模型组合。依据最优进化模型,我们使用PHASE计算ITS2配对区内碱基对的频率及碱基间的替换速率。(3)检验结果的准确性:使用的独立的4SALE序列结构比对方法,获得新的ITS2序列-结构矩阵,重复步骤(2)并比较结果差异。我们获得的80个属或近缘类群的ITS2二级结构基本符合“一环四臂”的保守模型;最优进化模型检验结果表明这80个类群配对区的最优进化模型均为RNA模型,其中61个类群最优RNA模型为RNA 16C,其余19个为RNA 16A。该研究结果证实了 ITS2配对区的进化模式与传统的DNA序列不同,表明在ITS2系统发育分析中使用RNA模型的必要性。基于RNA进化模型的系统发育关系清晰显示在Araila、Astilbe、Celastrus和Meconopsis四个类群中存在以AC/CA为中间体的CBC途径(如Aralia中GC→AC→AU)。基于28字符矩阵的CBC位点统计结果显示,65/80类群中共有353个CBC位点,其中以GU/UG为中间体的CBC位点189个,以AC/CA为中间体的CBC位点26个,余下15/80类群中均出现了以AC/CA或者GU/UG为中间体的半补偿性碱基替换过程(hemi-CBC)。进一步的模型计算与统计表明:AC在ITS2配对区内的平均频率(0.0111±0.0108)仅为 GU 的(0.0786±0.0302)14%,但 AC 的可变率(mutability)(3.2122±2.2888)是 GU(1.6389±0.9052)的 2 倍;以 AC/CA为中间体的 CBC 发生总概率(μ*γ=0.1174±0.0572)是 GU/UG(α*β=0.2264 ±0.1087)的一半。该大数据统计结果进一步提供了以AC/CA为中间体的CBC过程存在的证据及相对频率与速率大小。我们使用4SALE独立检验并分析了 3个类群,发现其CBC统计结果、相对频率和速率与使用LocARNA获得的结果相符合,这表明上述发现的AC/CA中间体及其介导的CBC突变过程受ITS2结构预测模型的影响不大。综上,本论文使用的基于二级结构的RNA碱基替换模型推断RNA分子内部碱基配对状态的方法,很好地解决了传统RNA晶体结构研究中不稳定碱基对难以检测的难题,为RNA结构和功能的研究提供了新的研究思路;本论文新发现的AU-AC-GC突变途径及其相对速率扩展了传统上认识的AU-GU-GC途径,为研发新的ITS2 RNA进化模型提供了理论基础和数据支撑。