论文部分内容阅读
背景与目的地中海贫血(简称地贫)是一种由于α和β珠蛋白合成比例失衡所导致的严重的致死性遗传病,是世界上最常见的人类常染色体单基因遗传病之一。地贫在全球的热带和亚热带地区有着广泛的分布和相当高的携带率,最新的研究数据表明,该种疾病的基因携带者占全球人口总数的4.83%,而我国该病的高发区主要分布于长江以南的地处热带和亚热带的各省区。地贫可以根据珠蛋白生成障碍的种类分为α地贫和β地贫两大类,分别是由α珠蛋白和β珠蛋白合成障碍而引起。在我国β地贫携带者当中,β珠蛋白编码区密码子(Codon,CD)41/42位(CD41/42)的4碱基缺失(-CTTT)是最常见的致病突变,该突变在中国南方人群中携带率约为1%左右,占所有中国南方β地贫致病突变的40%左右。地贫之所以在热带和亚热带有如此高的携带率,长期以来被认为是与疟疾的自然选择相关,早在20世纪40年代,英国遗传学家JBS Haldane就提出了地贫是因为疟疾的选择压力导致其流行的假说,类似的假说和观点的产生不仅是因为地贫高发区域的地理分布与疟疾流行区域的地理分布有着很大相似性,而且地贫的携带者在流行病学和分子病理学水平被证明可以抵抗疟疾。进入20世纪九十年代以来,随着高通量DNA序列测定技术的发展,以及测序成本的降低,针对人群的基因组水平足够大范围的测序已成为现实,在群体遗传学水平上,科研人员对葡萄糖-6-磷酸脱氢酶缺陷症(G6PD Deficiency)、镰刀型贫血症(HbS)、血红蛋白E(HbE)、血红蛋白C(HbC)等血红蛋白病与疟疾的进化关系都展开了初步的探索,并得到了一些关于疟疾的自然选择压力在携带这些致病突变的染色体上所留下的基因组水平和群体遗传学水平的证据,进一步让我们确信前人关于这些疾病受到疟疾的自然选择的假说是正确的,但是在β地贫方面,还没有群体遗传学水平相关的研究报道。与此同时,亦没有针对β地贫的分子进化领域的相关报道。本研究预计通过针对CD41/42β地贫相关样本的群体遗传学研究,分析得到疟疾的自然选择压力作用于CD41/42β地贫,从而在基因组水平上留下痕迹的证据,达到证明CD41/42β地贫和疟疾的自然选择关系的目的。同时根据研究过程中得到的群体遗传学数据来对CD41/42β地贫等位基因和单倍型在中国南方人群里的发生、发展和变化的进化历程做一些初步的探索,以填补该遗传疾病在分子进化领域的研究空白,并可以给今后对其他遗传疾病的类似研究提供参考。材料与方法我们选择了以中国南方人群β地贫中携带率最高的一种突变—CD41/42作为研究靶点,以β珠蛋白基因簇作为基因组上的研究区域,采集了24个正常人和中国南方九省的共16个CD41/42β地贫携带者作为研究样本,抽提外周血基因组DNA,然后对该样本每个个体β珠蛋白基因簇的ψβ-globin、δ-globin、Recombination Hotspot和β-globin区域分别进行长片段PCR扩增,并对经纯化的PCR产物进行双向序列测定。上述四个片段总长共15.933kb,覆盖20.693kb的基因组范围。测序结果经DNAStar Lasergene软件比对得到49个单核苷酸多态性位点(Single Nucleotide Polymorphism,SNP),对所有位点用HWsim软件进行了Harding-Weinberg平衡检验之后使用Phase2.1.1软件对这49个SNP位点以及CD41/42位点进行单倍型推断和重组热点区的预测。在推断得到的单倍型的基础上,进行了如下的群体遗传学分析:首先运用Arlequin3.01软件对整个样本进行了Tajima’s D中性检验,该结果是从群体遗传学的角度判断研究区域是否受到自然选择和受到何种自然选择的依据;运用DnaSP4.0软件对样本进行四配子检验,用以测定在研究区域是否有重组发生和重组在何处发生;运用Network4.1.1.2软件对样本的单倍型进行了中介网络图的构建,用以分析各种单倍型之间的亲缘关系;同时用Arlequin3.01软件进行连锁不平衡(Linkage Disequilibrium,LD)计算并绘制连锁不平衡图谱,可以用来给之前各种分析提供参考。把上述各种分析得出的结果进行综合总结和讨论,可以对CD41/42β地贫等位基因的进化历程和各种单倍型之间的进化关系得出一个较为可信的推测。因为我们的样本并非按照CD41/42的自然携带率进行采集,而是人工构建的样本(artificial sample),所以我们在中性检验和LD计算的过程中都充分考虑了人工样本给结果带来的偏差,并在文中做出了讨论。结果与讨论用DNAStar软件对PCR产物双向测序结果比对分析,共找到49个SNP位点,Monte Carlo Permutation test的结果显示,除去一个位点之外,其余位点均符合Harding-Weinberg平衡。Phase软件预测出研究区域含有一个重组热点区,这与前人的研究结果和我们之后的LD分析结果是一致的,为了避免重组热点区带来的不确定因素的干扰,我们仅仅对重组热点区下游的包含CD41/42位点的β-globin区域共16个多态位点进行了单倍型推断,共得到20种单倍型,其中包括16种正常单倍型和4种突变单倍型。Tajima’s D中性检验在所研究样本的β-globin区域得到的是负值,且结果具有统计学意义,这个结果表明,该区域受到平衡选择(balancing selection)的作用,而已知的能对该区域带来这种作用的候选对象只有疟疾。ψβ-globin、δ-globin、Recombination Hotspot三个区域的中性检验结果各不相同,且结果均不具有统计学意义,这也说明了重组热点区确实会给我们的分析带来不稳定的干扰。考虑到我们的样本是人工构建的非随机样本,我们还把样本中的突变染色体条数按不同组合删减到符合实际携带率的水平,并对由此产生的多个样本也进行了Tajima’s D中性检验,而得出的结果与原始样本的结果是一致的,这也说明我们的样本在一定程度上是可以代表随机样本的。四配子检验和LD分析的结果提示在β-globin区域内部也发生过一定程度的重组,那么这些重组事件会否对CD41/42等位基因和单倍型的播散带来影响?根据单倍型构建的中介网络图显示中国南方人群在β-globin区域的单倍型分为三个大支,每个支都有其主要单倍型,而CD41/42β地贫单倍型(βCD41/42haplotype)只分布在其中两个较为年轻的支上,在无限位点模型下,讨论推断CD41/42突变最早发生于两支之一的主要单倍型上,然后通过与另一支的主要单倍型发生基因转换(gene conversion)从而把CD41/42等位基因传播到另一支上,从而产生新的遗传背景完全不同的βCD41/42 haplotype,同时我们还可以观测到在我们这20种单倍型中,有多种单倍型都很可能是由于另外两种单倍型之间发生基因转换而产生的。这样的研究结果表明基因转换对于中国南方人群β-globin区域单倍型的多样性和致病突变单倍型—βCD41/42单倍型的播散起着主要作用。本研究得到的上述成果在群体遗传学水平上证明了疟疾与β地贫的自然选择关系,并且通过对所研究样本β-globin区域单倍型的分析得知基因转换在βCD41/42单倍型的发展和播散过程中起到了重要的作用,是造成βCD41/42单倍型的多样化和βCD41/42单倍型在所研究样本中现时分布状态的主要原因,这也是有史以来首次对β地贫的致病突变进行较为系统的分子进化研究。我们在文中详细讨论了基因转换发生的可能过程。