论文部分内容阅读
研究背景与目的大肠杆菌常寄生在人和动物的肠道中,在环境卫生不良的情况下,也会伴随粪便散布在周围环境中。2006年9月美国“毒菠菜”事件和2011年5月德国肠出血性大肠杆菌O104:H4等一系列食用蔬菜所致疫情的暴发表明,植物很有可能携带致病性大肠杆菌,并成为继人和动物肠道后大肠杆菌的另一重要宿主。沙拉、大拌菜等生吃蔬菜的方式很流行,是民众公认的营养健康餐。然而,如果人食用了被致病性大肠杆菌污染的蔬菜之后,健康将受到严重威胁。目前,关于大肠杆菌植物分离株的研究还比较匮乏,对于其在植物体内持续生存的机制尚不清楚。全基因组测序技术的飞速发展,为大肠杆菌种群结构和遗传多样性的研究提供了空前机遇。本课题中,我们收集了上百株分离自植物内部的大肠杆菌分离株,以分离自人和动物的ECOR菌株为参照,对上述菌株进行高通量测序,并对全基因组序列进行种群结构和群体遗传学分析,以期:(1)重建大肠杆菌植物分离株的系统发育关系;(2)从遗传多样性和基因组成角度,比较大肠杆菌植物分离株和人/动物分离株ECOR的差异;(3)探讨大肠杆菌在植物体内生存的遗传机制。研究内容与结果全基因组SNP变异及种群多样性分析本研究中,我们对105株大肠杆菌植物分离株(GMB)和66株人/动物分离株(ECOR)进行全基因组序列测定,并收集下载了64株NCBI数据库中已公布的大肠杆菌完成图序列。对共计256株菌进行全基因组范围SNP鉴定。经组装序列和测序reads双重校验,共得到354,888个可靠的SNP变异位点。基于SNP的系统发育分析表明,GMB菌株几乎覆盖了所有已知的基因型分群,与过去基于MLST的分析结果基本一致。结合核苷酸多样性π值的计算,我们发现大肠杆菌植物分离株的遗传多样性超过了大肠杆菌全球分离株的代表集合—ECOR。其中,GMB菌株在大肠杆菌B1群的分布最广泛,占全部GMB菌株的39.05%(41/105)。此外,我们发现GMB菌株存在两个遗传距离特别远的特有分支。根据平均核苷酸一致性(ANI)计算结果,可将其归于类大肠杆菌分支C-I和C-V。GMB菌株采样时间和采样地点信息比较详细,为通过时间-空间分布规律研究大肠杆菌在自然环境中持续生存和传播的模式提供了有力的背景资料。通过比较不同年份每个分离地点GMB菌株的组成情况,发现即便在同一农场,大肠杆菌种群组成在不同年份之间变化也很大(Fisher精确检验,P=0.0362)。GMB菌株两两之间的遗传距离与采样时间、地点的关联分析表明,同一农场不同年份的GMB菌株存在异质性,提示大肠杆菌在植物中仅能当年寄生,来年会发生种群更替现象;同时,来自不同农场但遗传距离相当近的GMB样本只有少数几对,说明同一年份大肠杆菌植物分离株跨地区传播的现象较为少见。ECOR与GMB的种群进化推动力Tajima’s D中性检验是推测DNA分子水平进化历程的一种统计学方法,可用于判断随机遗传漂变、定向选择、种群扩增、瓶颈效应、遗传搭载等效应。本研究利用GD软件对66株ECOR菌株的143,865个变异位点和100株GMB菌株(不包括类分支C-V菌株)的185,854个变异位点进行Tajima’s D中性检验。经计算,得到ECOR和GMB种群的统计检验量D值分别为0.448242和-0.151549,接近0,说明ECOR和GMB菌株在种群水平上符合“中性突变的随机漂变理论”。为探究ECOR和GMB两个种群是否受宿主环境(动物或植物)选择压力的影响,我们利用Ka Ks Caculator软件的不同模型分别计算了两个种群中各基因非同义/同义置换率的比值Ka/Ks。通过绘制箱线图,发现GMB和ECOR两个种群的Ka/Ks比值分布基本一致,但同时都存在异常值。通过多种统计学方法,在这些异常值中鉴定出17个具有正向选择信号的基因。其中5个出现在ECOR种群中,分别是maa、csg C、hyp A、hsr A和ybd J,前3个基因与大肠杆菌在宿主肠道内的定植密切相关,hsr A基因可能与耐药性相关;GMB种群中存在12个受正向选择的基因位点,其中bss S基因参与生物膜调控,dkg B、asr、blr和yib D基因分别与渗透压刺激、酸休克和营养饥饿等应激反应密切相关。该结果表明虽然大肠杆菌在种群水平以中性进化为主,但在基因水平存在正向选择,帮助不同种群的大肠杆菌适应各自生存环境。与植物体内生存相关的基因元件鉴定基因获得缺失是细菌适应环境的重要手段。GMB菌株很可能会获得一些特有基因元件,利于其在植物体内生存。本研究利用BLAST和SOAP aligner等生物信息学序列比对软件,对附属基因组在测序样本中的存在情况进行解析,并与系统发育分析结果相关联,发现大肠杆菌附属基因组片段的获得缺失情况与其所在进化分支密切相关,但GMB整个种群不存在特异性的基因组片段。由于GMB菌株在B1群中分布最广泛,我们将研究范围聚焦在B1群,分析了B1群41株GMB菌株和19株ECOR菌株的附属基因组获得缺失情况。最终,鉴定出总长度为105.73 Kbp的45个大片段,在至少5株GMB菌株中存在,而在19株ECOR菌株中均缺失。对鉴定的45个大片段进行功能分类,主要鉴定出4类重要的功能:编码DNA断裂-重连蛋白和二氢叶酸还原酶,参与DNA损伤修复和维持细胞分裂时DNA含量的稳定性;噬菌体相关蛋白,传播毒力因子和耐药性基因;Ara C家族蛋白,降解植物细胞壁,参与细菌和植物的相互作用;编码精氨基琥珀酸合酶,参与精氨酸的生物合成通路,在氮饥饿状态下提供氮源。其中,Ara C家族蛋白对于大肠杆菌从植物叶子表面进入叶子内部寻求相对稳定的生存环境具有重要意义。此外,通过对获得缺失热图的分析,我们发现三株分属于不同进化分支的GMB菌株拥有大量共同的附属基因组片段。结合时空分布分析结果和菌株背景信息,我们推测GMB菌株虽然不是前一年大肠杆菌的直系后代,但他们可通过某种途径(如土壤或噬菌体)获得前一年菌株的基因组残留物。研究结论与意义本研究首次从全基因组角度分析了植物体内分离的大肠杆菌的种群结构和遗传多样性,为认识大肠杆菌在植物宿主中可能的生存及传播机制奠定了基础。通过选择压力分析,分别鉴定出ECOR和GMB两个种群受宿主环境选择压力影响的功能基因位点,加深了对大肠杆菌适应性进化机制的认识。通过基因获得缺失分析,发现了与大肠杆菌在植物体内定植和毒力获得相关的基因片段,初步探讨了大肠杆菌在植物中生存并能引起人体致病的遗传机制。同时发现,尽管GMB菌株难以连年在同一局部区域增殖,但可以通过土壤等途径遗留下基因组片段,并被新的替换种群所获取。这为致病、耐药等基因的水平转移创造了条件。因此,加强农产品产地土壤环境监测,发现并切断这一新的潜在传播途径,将有助于致病大肠杆菌相关疫情的预防和控制工作。