论文部分内容阅读
严重急性呼吸综合症(SARS)冠状病毒是一种重要的新生病原体,其进化研究对预防和控制这一烈性传染病具有重要意义。在本研究中,我们在SARS冠状病毒毒株基因组的系统发育重建、S蛋白的适应性进化检测、以及受体结合域结构变异的功能效应等方面进行了探索。为了探索SARS冠状病毒基因组的进化史,我们构建了迄今为止最大的SARS冠状病毒完整基因组非冗余序列联配数据集。在此基础之上,又加入全部类SARS冠状病毒毒株完整基因组序列,从而构建了第二个基因组数据集。为了检测各个毒株基因组之间是否发生过重组事件,我们采用五种算法对两个基因组数据集进行了自动扫描,分析结果一致表明:在SARS冠状病毒毒株之间、以及SARS冠状病毒和类SARS冠状病毒之间都没有发生重组事件。换言之,全基因组的系统发育分析有着可靠基础。为了重建基因组的系统发育树,我们对上述两个数据集分别进行了邻接法和贝叶斯法分析。多种分析结果一致表明:以类SARS冠状病毒作为外类群,则作为内类群的SARS冠状病毒的单系性质得到了充分支持。在全部SARS冠状病毒毒株之中,ZSA、ZSB和ZSC这三个SARS首次爆发早期分离的人源毒株最有可能是基部类群,因此它们对理解SARS冠状病毒跨越物种屏障传播的分子机制具有重要价值。为了估算基因组替代速率,我们从基因组进化树选择了5个具有准确分离日期的代表性毒株,对其联配数据集进行了分子钟假说的似然比检验,结果表明该数据集服从分子钟假说。于是重建了线性树,估算出SARS冠状病毒基因组的替代速率是平均每个位点每天发生6.01105×10-6次替代事件,而分歧时间的估算则暗示在2002年11月3日已经有SARS冠状病毒侵入人群,与最早流行病学记录的SARS病人2002年11月16日的出现日期非常一致。为了检测SARS冠状病毒S基因位点特异性适应性进化,我们构建了迄今为止最大的SARS冠状病毒S基因完整编码区的非冗余序列联配数据集。在此基础上,又选取了一些代表性毒株构建了一个小型数据集。采用DATAMONKEY服务器,对大型数据集进行了单一似然祖先计数法分析,在P=0.1水平上发现了1个正选择位点和5个负选择位点;对包含23个毒株的小型数据集进行了单一似然祖先计数法、固定效应似然法和随机效应似然法分析,分别在P=0.1或贝叶斯因子BF=10水平上发现了1个、9个和18个负选择位点,并且讨论了它们可能的功能含义。为了检测SARS冠状病毒S基因分支特异性适应性进化,我们构建了一个小进化尺度数据集和一个大进化尺度数据集。采用DATAMONKEY服务器的遗传算法对这两个数据集进行了分支特异性的适应性进化检测。结果一致表明,S基因在不同物种群体的不同传播时期都经历了正选择。为了探索S蛋白受体结合域结构变异的功能效应,我们对它同细胞受体或中和抗体形成的复合体结构进行了结构生物信息学分析,模拟了受体结合域变异体和物种特异性的宿主受体之间的相互作用,计算结果同实验证据十分吻合,并且预测了一系列可能显著提高复合体亲和力的氨基酸突变用于抗病毒抑制剂研发设计,另外,还采用同源建模技术预测了蝙蝠源的类SARS冠状病毒受体结合域的三维结构,结果表明它同SARS冠状病毒的对应区域存在显著的结构差异,因此我们推测类SARS冠状病毒可能无法感染人类。此外,我们还讨论了进一步的研究方向,指出未来的工作主要包括:建立SARS冠状病毒进化分析服务器、对SARS冠状病毒进行模拟进化分析、检测其它基因的适应性进化、以及冠状病毒物种之间的基因组进化分析等。