论文部分内容阅读
本研究集中探讨了进化生物学研究中的两个重要问题。考虑的第一个问题是如何使用DNA序列数据来检查受到正向选择的基因。确定哪些基因受到正向选择是一个重要的课题,因为这些基因很可能有着重要的生物学功能。因此通过寻找受到正向选择的基因可以更好地认识造成物种之间差异或同一物种内群体间差异的原因,进而更深刻地认识生物进化的机制。随着群体遗传学的发展,特别是中性进化理论的提出,研究人员设计了许多用于检测正向选择的统计检验。在本研究当中,集中研究那些使用种下多态性数据的统计检验。这些统计检验都以中性进化模型为原假设。但是中性进化模型是一个高度简化的数学模型。它假设所有突变都是中性的,而且群体大小恒定不变。这些假设显然不符合现实。因此,这些统计检验常常对于多种进化动力敏感。但是这样的方法在寻找受到正向选择的基因的应用中并不有效,因为当原假设被否决后我们很难得知这个否决到底是由什么原因造成的。因此我们需要设计新的、仅对正向选择敏感的统计检验。
为了设计仅对正向选择敏感的统计检验,首先系统地研究正向选择是如何影响临近的中性位点的。发现在选择位点临近的区域相对位点频率图谱常常是U型的。也就是说,在这些区域,相对于高频率和低频率多态位点,中等频率的多态位点常常偏少。同样的,正向选择也显著地影响等位基因频率图谱。这些结果表明位点频率图谱和等位基因频率图谱都包含着受正向选择位点的信息。接下来我们对一些常用的统计检验进行了系统的研究。我们的主要结论是:我们所考察的大多数统计检验都有能力检测正向选择,然而他们全都对若干正向选择以外的进化动力有敏感性。但是,某些统计检验,比如说Tajimas D和Fayand Wus H,有着特殊的性质:1.它们有能力检测正向选择;2.它们敏感于不同的、正向选择以外的进化动力。基于这些结果,提出了复合统计检验的概念,并设计了三个这样的检验:DH,HEW和DHEW。用计算机模拟对这三个检验进行了系统的研究。发现这三个检验,特别是DH和DHEW,对大多数的非正向选择的进化动力都不敏感;同时它们在检测正向选择方面有相当的能力。为了清楚复合统计检验在实际应用当中的效果,用DH和DHEW来分析由SeattleSNPs计划提供的一个大规模人类多态性数据库。这个数据库中的部分数据已经被Akey et al.分析过。我们首先用DH和DHEW来分析这部分数据。虽然复合统计检验的形式相当简单,能轻易地得出与Akey et al.的研究非常相似的结果。但是分析比Akey et al.所用的方法简单得多、快速得多。为了寻找新的受正向选择的位点,接着用DH和DHEW来分析整个数据库。发现了3个新的可能受到正向选择的位点。更精细的分析表明,这些位点的群体内多态性水平很低,但群体间的分化水平很高。这些模式完全符合正向选择理论的预测。这些进一步的结果为这些位点或和它们临近的位点是正向选择的目标提供了新的证据。总结上述结果,认为复合统计检验是检测正向选择的有效工具;同时DHEW检验很好地平衡了检验效力和检验保守性。本研究要回答的第二个问题是如何区分物种起源的异域模式和邻域模式。在自然界中到底是异域模式更普遍还是邻域模式更普遍是进化生物学里其中一个最富争议的问题。传统的研究方法需要采集大量的生态学数据、遗传学数据和实验数据。仅有少数的物种能提供这样的数据,因此对物种形成机制的研究受制于数据的匮乏。随着分子生物学技术的发展,现在要从几个近源物种中获取同源基因的序列是一件不困难的事情。而基因序列包含着物种进化的信息。因此可以通过研究序列在物种问和物种内的差异来研究物种形成的机制。在这个研究当中,我们选择了4种属于海桑属的红树植物作为研究对象。获取了约60个同源基因的序列。用这些数据来估计祖先群体的多态性水平。此外,还获取了6个基因的种内多态性数据。通过比较,发现祖先群体的多态性水平显著地比现在群体的多态性水平高。这个结果与严格的异域物种形成机制并不完全吻合。认为祖先群体在物种形成的时候很可能具有明显的种群结构,而由此造成了很高的群体多态性水平。上述结果表明所研究的4种海桑属红树植物很可能是邻域物种形成的产物。认为这种研究物种形成机制的方法可以被广泛地应用于非模式生物的研究当中。