论文部分内容阅读
疟疾是一种由疟原虫感染所导致的、严重危害世界公共卫生安全的蚊媒寄生虫病。近年来全球疟疾防治取得了巨大的成效,但是依然面临着重大的挑战。世界卫生组织自2006年以来,推荐青蒿素类药物与长效抗疟药联用,用于治疗对多种抗疟药物产生抗性的恶性疟原虫,但是在东南亚各国及我国云南边境地区已经报道了恶性疟原虫对青蒿素类药物敏感性降低,更是为疟疾防治敲响了警钟。随着测序技术的进步,国际上已经有几千株非洲、东南亚流行区域的恶性疟原虫全基因组测序数据,恶性疟原虫的各项研究提供了便利,但是,对于我国中缅边境地区恶性疟原虫,其基因组信息仍未知。因此本课题对中缅边境地区恶性疟原虫基因组展开深度分析,建立基因组遗传数据库,并且与其他国家地区恶性疟原虫基因组进行比较寻找差异,在此基础上建立地域判别模型,从而为这些国家地区恶性疟原虫的溯源打下基础。本课题采集了46株来自我国中缅边境拉咱地区的恶性疟原虫虫株,经过体外培养、基因组抽提、全基因组测序获取其基因组数据后进行数据分析,以恶性疟原虫3D7株基因组为参考序列进行比对,并用ESTMOI程序进行多重感染检测,挑选出34株虫株(mapping率大于70%,测序深度大于30,且单一感染),之后从国外数据库中下载其他国家地区的恶性疟原虫基因组数据,同样方法挑选出来自泰缅(40株)、泰柬(56株)、西非(33株)地区的129株恶性疟原虫。对163株恶性疟原虫基因组使用GATK软件进行SNP变异检测,并设定一系列条件挑选高质量的SNP位点,共得到150761个高质量SNP,其中中缅、泰缅、泰柬、西非四个种群分别检测到59720、42264、39196、90669个SNP位点,其中4个种群共有的SNP为11849个,中缅地区特有的SNP为21662个。基于上述高质量SNP,使用PopGenome程序包计算不同种群的核苷酸多样性(π),其中中缅种群的π值显著高于泰柬,与泰缅、西非的π值没有显著差异。使用PopLDdecay软件计算所有SNP之间连锁不平衡(LD)系数的均值(窗口值为1kb),构建基于的LD衰减图谱,发现值随着距离的增大而衰减,不同种群LD衰减速率不同,衰减速率为:西非中缅泰缅泰柬,中缅、泰缅、泰柬、西非四个种群的值衰减至0.2的距离分别为120bp、250bp、350bp、70bp左右。四个种群的LD衰减速率与π值大小顺序一致,这说明四个种群的遗传多样性大小顺序为:西非中缅泰缅泰柬。使用PopGenome程序对中缅恶性疟原虫种群进行中性检验,结果显示中缅种群Tajima’s D值(-0.8,P<0.05)和Fu&Li’s D值(-0.84,p<0.05)均显著为负,说明中缅恶性疟原虫群体在历史和近期可能经历过负向选择或者种群扩张。使用rehh程序包中的整合单倍型得分(integrated haplotypescore,iHS)方法对中缅恶性疟原虫种群进行选择信号检测,取||值前1%的位点,在全基因组范围内共筛选到78个受选择压力的基因,其中含有2个以上SNP的基因有32个。这32个基因中有15个功能未知,其余17个基因包含有一些疫苗候选基因如ama1、trap、celtos,药物抗性相关基因如ubp1,膜基因和表面蛋白基因如clag3.2、surfin家族基因,ARK家族基因如ark3。以中缅种群为参考群体,分别与泰缅、泰柬、西非三个种群进行种群间的扩展单倍型纯合度(XPEHH)检验,取||值前1%的位点,共筛选到含有2个以上SNP位点的基因90个,与泰缅、泰柬、西非三个种群比较均检测trap、trep和ark3基因,选择作用在中缅种群中,与泰缅、泰柬两个东南亚种群比较均检测到了ama1等9个基因,与西非种群比较检测到了cg1等41个基因。之后我们对4个地区恶性疟原虫种群结构进行分析,用PopGenome程序计算Fst值,结果显示西非与中缅、泰柬、泰缅3个种群之间存在较大的遗传分化,中缅与泰缅之间的遗传分化程度最小。使用MEGA6.0软件中的Phylogeny程序构建了系统发育树-邻接树(Neighbor-Joining Tree,NJ树),结果显示163个虫株分为四个种群,除2株泰缅虫株位于中缅种群内,其余均与地域来源保持一致。使用plink和gcta软件进行主成分分析,计算SNP数据矩阵的特征向量,结果显示163个虫株同样分为四个种群,西非与中缅、泰柬、泰缅虫株距离较远,泰柬种群较为分散,中缅与泰缅虫株距离最近。使用ADMIXTURE(version 1.3.0)软件进行恶性疟原虫群体结构的分类,K值取2-10进行计算,当K值为6时,分群效果最佳,西非、中缅、泰缅地区恶性疟原虫种群较为单一,泰柬地区恶性疟原虫内部存在亚群。基于前面的结果,我们进一步寻找能够区分4个种群来源虫株的SNP组合标记,采用plink软件对四个种群的SNP进行两两比较分析,挑选每两个种群之间差异显著的前100个位点组成差异显著位点集,用SPSS软件对位点集内的132个保守区域位点(内含子,基因间隔,四倍简并位点)进行逐步判别分析,最终得到33个SNP位点作为判别指标构成判别模型,再通过回代检验、交叉验证和新样本(51株)检验三种形式对判别函数的可靠性进行了评价,四个种群虫株回代检验的准确率为100%,交叉验证准确率为96.69%,新样本预测总体正确率为88%,因此这33个SNP位点的组合可以很好地应用于这4个地区来源恶性疟原虫的溯源。