论文部分内容阅读
呼吸道感染(respiratory tract infections,RTI),属于常见感染性疾病之一,可分为上呼吸道感染以及下呼吸道感染,可在全球范围内引起流行,是导致人群发病和死亡的重要原因,可影响不同年龄阶段的人群,特别是易感人群。据2015年全球死因顺位排序显示,在前30种导致死亡的病因中,由呼吸道感染造成的死亡位居前五。此外,对于5岁以下儿童,下呼吸道感染是导致该年龄段发病和死亡的主要原因,因此,由呼吸道感染造成的住院负担以及公共卫生经济负担不容忽视。临床上,造成机体呼吸道出现感染的病原体主要涉及病毒、细菌和真菌,其中病毒的占比高达68%。可以引起人体呼吸道感染的常见病毒主要包括9种,涉及流感病毒(IFV),人冠状病毒(HCoV),人呼吸道合胞病毒(HRSV),人鼻病毒(HRV),人副流感病毒(HPIV),人肠道病毒(HEV),人偏肺病毒(HMPV),人博卡病毒(HBoV),和人腺病毒(HAdV)等。病毒可以通过不同的方式感染机体,既可以是单一病毒感染,也可以是同一病毒不同型别或者多种病毒合并感染。此外,由于三间分布(时间、地点、人群)的差异,由呼吸道病毒导致的流行也存在一定差性异。因此,明确呼吸道病毒流行特点,病毒组组成,病毒基因组序列信息,能有助于对病毒进化的整体把握,为后续病毒诊断、监测、预防以及临床治疗,药物,疫苗的研发等提供夯实的科学更据。随着测序技术的不断发展,高通量测序技术在宏基因组信息获取方面体现出明显的优势,也越来也多地应用于临床样品的研究。但是,其并行的缺点在于带入了大量的宿主信息,造成测序数据的冗杂,且只能在少数样品中获取病毒的全基因组信息,成本效益偏低。因此,目前在开展对呼吸道病毒研究中,特别是在获取病毒全序方面,需要攻克两方面的技术难点,即前期临床样品处理和后续生物信息分析。鉴于以上原因,本研究首先建立了一套优化的宏基因组病毒组检测方法,其次,基于该方法,对收集于2012-2018年间的291份临床呼吸道感染样品进行处理,以高通量测序为平台,对测序获得的clean reads进行组装和拼接,从而明确感染样品中病毒组的组成情况(包括病毒种类和相对丰度),并获取病毒相关的基因组信息,其中,重点关注9种常见呼吸道病毒的基因组。最后,对常见人冠状病毒HCoV-NL63,HCoV-229E,HCoV-HKU1和HCoV-OC43和人副流感病毒HPIV1-4开展深入的分子进化分析,涉及核苷酸、氨基酸相似性,重组事件,病毒进化时间信号和进化速率,系统发育分析和群体历史动态推断,重要位点(压力选择位点,糖基化位点,关键突变位点)之间的关系,可能的致病性,以及氨基酸保守性分析等。首先,我们在本次研究中选取了 3份临床COPD样品,每份样品采用M1-M4方法进行平行处理,并评估不同处理方式下病毒富集的效果。发现M3方法在去除人宿主信息方面的能力明显优于M4,获且得的病毒reads数量约是M4方法的22倍;在基因组各个位点测序深度和覆盖度方面,不富集时(M4方法)的基因组覆盖度为4-32%,而采用富集方式处理,特别是M3方法,基因组覆盖度高达99.8%(97.8-99.9%);其次,比较了 M3方法与增加五倍测序深度(M-d法)的情况下获取病毒组的效果,发现仅仅采取增加测序深度的方式并不能有效提高对病毒检测的效率,反而更多的是增加后续数据生信分析的负担。以上结果均表明M3方法在研究病毒组和获取病毒序列方面优于M1,M2和M4法。其次,基于M3方法对291份临床呼吸道感染样品进行处理,包括已知感染病毒种类的样品和未知感染情况的样品,以二代测序为平台,开展病毒组的研究。测序结果显示每个样品的数据量主要集中在1.5G,样品中获取的病毒reads数的中位数占比为4.49%,最大占比为89.73%,其中,某一种病毒reads数占比最高可达99%以上。样品中病毒种类多样,涉及DNA病毒、RNA病毒、逆转录病毒、有包膜病毒、无包膜病毒、来自于脊椎动物或者节肢动物的病毒,且往往呈多种病毒混合感染的状态。在已知感染病毒种类的75份样品中,病毒组的组成以人副流感病毒HPIV1-3感染为主(主要是HPIV3),同时合并感染的呼吸道病毒还包括ⅢV-A(H3N2 和 H1N1),IFV-B,IFV-C,HRSV(A和B),HMPV,HCoV(229E和OC43),HRV(A和C),HBoV,HEV(B和C)和HAdv等。在未知感染情况的216份样品(H1-H82和R1-R134)中,病毒组组成以HAdv,HRSV(A和B),HRV(A、B和C)感染为主,同时合并感染的呼吸道病毒还包括IFV-A(H3N2),IFV(B 和 C),HMPV,HCoV(NL63,229E,HKU1 和 OC43),HPIV,HBoV和HEV(A和C)等。可以发现,在多数样品中均有检测到TTV病毒,涉及α,β和γ三种型别,仅在少数样品中未发现TTV病毒的存在,此外,样品中经常检测到的另一种病毒为人内源性逆转录病毒K113。针对9种常见的呼吸道病毒,我们共获得了 181条基因组的序列信息,包括4份IFA,25份RSV,78份HPIV,7份 HMPV,18 份 HCoV,36 份 HRV,1 份 HEV,2 份 HBoV 和 10 份 HAdv 的全基因组或者完整的CDS信息。其中,人鼻病毒涉及3个基因型和36个基因亚型,主要包括24个HRV-A,1个HRV-B,和11个HRV-C。值得注意的是,在部分样品中,还发现了脊髓灰质炎病毒I型减毒疫苗株,麻疹病毒和诺如病毒基因4型的reads信息。最后,基于获得的序列信息,重点对HCoVs和HPIVs进行深入分析。对于人冠状病毒,18个基因组序列,包括2个HCoV-NL63、8个HCoV-229E、2个HCoV-HKU1和6个HCoV-OC43。根据病毒的全基因组,我们观察到重组事件在获得的HCoVs呈现出两种现象:种内重组和种间重组。基于完整的S基因,仅发现HCoV-229E具有较强的时间进化信号,其次,四种人冠状病毒进化的平均速率估计值水平都在×10-4 substitutions/site/year.。基于S基因全长MCC树分布,我们将属于HCoV-HKU1的H78命名为新的基因亚型C2,发现获得的HCoV-OC43序列中P43与中国广州最近流行的新毒株属于同一基因型K。此外,在HCoV-NL63的RBD区域的RMB2中,于属于基因型C2的H45中发现了一个氨基酸取代(G534V),而G534被认为是RBD与人体ACE2结合的关键位点。在HCoV-HKU1的S1亚基的CTD中,于属于基因型A的R63中发现另一个氨基酸取代位点(H512R),而H512被认为是结合中和抗体所必需的。对于人副流感病毒HPIV1-4型,共获得68条基因组序列,包括HPIV1的4个、HPIV2的5个、HPIV3的58个和HPIV4的1个,将其与前期获得的24条HPIVs序列信息合并分析。基于F基因完整CDS区的进化分析,显示HPIV1分布于clade 2和clade 3;HPIV2分布于G1a和G3;HPIV3均属于cluster C,分布于C3a和C3b;HPIV4序列则均属于cluster4A。基于HN基因完整CDS区的进化分析,显示HPIV1均分布于clade 2,与美国和马来西亚流行的毒株接近;HPIV2与美国、马来西亚、Croatia流行的毒株接近,分布于G1a,G1c和G3;HPIV3序列均属于cluster C,分布于亚簇C3a,C3b,C3d和C3f;而HPIV4序列则均属于cluster 4A,与中国河南地区流行的毒株接近。以上结果表明HPIV1-4在中国共同传播,同一基因型别的不同亚型共同流行,其中,HPIV 3的流行的基因亚型主要分布于C3。此外,仅在1株HPIV3(BCH4102A/2014)的HN基因段发现了潜在的重组信号,表明人副流感病毒进化相对稳定。采用两种分析模型对位点选择压力进行分析,MEME模型检测到HPIV3的F基因和HN基因中分别存在两个正向选择位点,即10,73和5,25。FUBAR模型显示HPIV3的F基因中存在3个阳性选择位点(氨基酸位点7,73和488)和154个阴性选择位点;HPIV3的HN基因中存在1个阳性选择位点(氨基酸位点25)和148个阴性选择位点。在获得的HPIV3序列中,发现两个氨基酸取代位点(F蛋白中的R73K和HN蛋白中的A281V)和一个负选择位点(F蛋白中的氨基酸位点398)分别对应于先前报道的中和相关位点。此外,在HPIV3的F蛋白中,两个氨基酸取代位点K108E和Q362R同时又是阴性选择位点;在HPIV3的HN蛋白中,三个氨基酸取代位点R141K、L174S和V197A同时又是阴性选择位点,其中,氨基酸取代位点L174S同时又是O-糖基化位点。综上所述,本研究基于优化的样品制备方式和相对易实现的数据处理与分析流程,更好地实现从前期样品制备到后期数据生信分析规范化、程序化流程的搭建,有效地提高了实验室对呼吸道病毒组的检测与鉴别能力,兼具时效性和准确性。对明确机体病毒组的组成特点和早发现潜在新病毒存在情况具有重要意义,可为进一步基础性研究提供充分的证据支持,并切实为我国重大传染性疾病疫情的防控提供关键技术支撑,最终更好地服务于临床治疗和公共卫生领域的健康发展。