论文部分内容阅读
国际千人基因组计划将补充完善包括SNPs(single nucleotide polymorphisms)、拷贝数突变(copy number variants)和短插入缺失突变(short insertions and deletions)等三类人类常见的遗传突变类型,为人类遗传学和医学研究提供资源。其第二个先导项目,即低覆盖度项目已完成了来自三个不同种群(CHBJPT,CEU和YRI)的179人的低覆盖度全基因组测序,平均测序深度为3倍。本论文对第二先导项目最终发布的SNPs数据进行统计分析,并结合群体遗传学理论和数学统计方法对数据所揭示的生物学意义进行了初步研究。通过对SNPs数量进行分类统计,我们发现,对于种群、染色体、突变类型、MAF(minor allele frequency),SNPs的数量上都具有不同的分布;而对于不同染色体、突变类型、MAF,SNPs的数量分布在不同的样本种群之中都具有比较好的一致性;每个样本种群中每一方面类型的SNPs数量与样本种群总数之比基本相等,这说明SNPs在这几个方面的数量分布与种群有关,而其数量与总数的比值与种群无关。YRI样本种群中的SNPs数量在各方面都为最多。并且其参考序列与祖先序列相同的SNPs数量也是最多,达到总数的69%。以上都与人类祖先源于非洲的结论吻合。本文运用Tajima D检验、Fu&Li D检验、Fu&Li D*检验和修正Fw检验四种不同的中性检验方法对三个样本种群染色体的每一个片断进行检验,并分析每一检验结果,研究其分布。根据这四个检验结果,我们发现,三个种群染色体区域大部分都未偏离中性突变。最后,分别利用Fu、Watterson和Taiima三种方法对每个样本种群染色体的每一片断的θ值进行了估计,得到各个θ值在不同种群的分布图。结果表明,Fu、Watterson、和Taiima估计方法对三个种群估计出的频率最多的θ值几乎是相同的,按CHBJPT,CEU,YRI三个样本种群依次分别都为:5、5、7。在这三个方法中,Fu的方法得出的θ值范围最窄,均值最小,为最佳方法。