论文部分内容阅读
新发传染病近年来屡有发生,SARS冠状病毒,MERS冠状病毒,禽流感病毒,埃博拉病毒等病原体新发传染病威胁着人类的生命安全。新发传染病病原体多种多样,常规的病原体分析方法不能完全适应新发传染病病原体的分析要求。高通量测序是一种新兴的技术,采用高通量测序技术对新发传染病病原体进行分析是一门正在发展的热门学科。将多种生物信息学理论和分析方法应用到新发传染病病原体分析和新发传染病的防控当中,可以有效提高应对新发传染病的能力。本研究以近年来发生于国内外的历次新发传染病疫情的病原体为研究对象,采用高通量测序结合数据分析的方法,研究历次传染病病原体的多样性与进化等规律,为疫情防控提供数据和参考。本论文的主要研究内容如下:我国军队腺病毒疫情的测序分析。针对近年来我国军队不同地区发生的集体发热疫情,采用高通量测序技术发现这些疫情都是由腺病毒感染引起。进一步通过高通量测序获得腺病毒的全基因组序列,对这些序列进行了比较基因组学研究,研究发现近年来我国军队爆发的腺病毒疫情主要由7型,14型和55型三种不同型别的腺病毒引起。2014年西非埃博拉病毒的进化研究。对西非的埃博拉病毒感染患者标本进行高通量测序,获得了175株埃博拉病毒的全长基因组序列。将这175株序列与公共数据库中的其他全长序列混合进行分析,得到了新测得序列中存在着440个突变位点,并且证明其中一些位点已经在流行的过程中被固定下来,显示了病毒仍在不断地适应宿主。发现了病毒在传播到塞拉利昂国内之后仍然在进行持续的分化,共分化出了7个不同的子系。通过统计每个子系的分布地理区域发现了塞拉利昂西部地区的三个重要疫情防控地理位点。基于最新序列计算的疫情中病毒碱基替换速率与以往埃博拉病毒中一致,证明病毒仍在稳定进化,没有突发性的加速进化,打消了国际社会的疑虑。本研究从总体上研究了塞拉利昂西部地区的埃博拉病毒遗传多样性与进化动力学,对塞拉利昂西部地区的疫情防控工作具有借鉴意义。H7N9型禽流感病毒的混合感染与重配研究。对江苏省禽类咽拭子标本的高通量测序与组装得到了8个样品中的流感病毒,其中的H7N9型禽流感病毒的序列与同时期同地区的人感染H7N9型禽流感疫情中的病原体序列具有极高的同源性,而其中的H9N2型禽流感病毒序列与当地长期存在的H9N2型禽流感病毒序列一致。在测序标本中发现了有4株样品中存在混合感染现象,并且发现了混合感染的毒株中发生了重配现象。这提示本次疫情的病毒重配过程仍在持续当中。研究中对禽流感病毒的8个不同片段进行了溯源分析,得出H7N9型禽流感病毒的HA和NA片段来源于境外,其余6个内部基因片段来源于国内,是一种三重重配导致的新病毒,分化时间较新。以上分析结果说明了H7N9型禽流感病毒的来源与发展趋势,并且观测到了正在发生的重配现象。中国人体内指环病毒科病毒的多样性研究。本研究对33份中国人血液标本进行核酸提取和MDA方法扩增并进行高通量测序,发现中国人群中指环病毒科病毒的感染率相当高,而且有大量的混合感染现象,同一个个体感染了不同属的指环病毒。感染中国人的指环病毒基因组差异很大,同一混合感染宿主中分离到的指环病毒可以分属不同的子系,一方面显示病毒感染的普遍性,另一方面显示病毒进化和传播的过程比想象中要复杂。指环病毒科病毒的感染与人类疾病之间并没有直接而明确的证据表明二者有关联,但有部分疾病与指环病毒科病毒感染之间可能有潜在的相关性。本研究提供了大量中国人体内的指环病毒科病毒基因组序列,为后续研究提供了数据基础。云南地区一种新型黄病毒的发现。采用高通量测序方法对从云南大理地区的伊蚊中分离到的一株病毒的全长基因组序列进行了测定,序列分析证明其为黄病毒属下的一种新的病毒种,并经国际病毒分类学委员会确定。该病毒与之前发现的伊蚊内传播的黄病毒基因组结构比较相似,并且都含有一个因为移码突变导致的开放阅读框。同其他伊蚊内传播的黄病毒类似,该病毒目前不能造成Vero细胞发生细胞病变,提示其可能对哺乳动物没有感染性。高通量测序数据中病原体的智能快速筛查。对于未知感染的复杂标本或者疑似存在病原体但无法确认的标本进行直接高通量测序,设计智能判别算法,从产出的大量读序(reads)中尝试寻找和发现可能存在的病原体核酸信息。该方法可以对临床复杂标本进行病原体智能快速筛查。该方法建立和完善之后已经处理数十例类似的高通量测序数据,并成功地筛查到其中存在的病原体,部分筛查结果采用实验方法进行了验证。相关生物信息学程序的设计。在上述研究过程中,为了降低人工参与的强度,加快分析速度,降低分析错误率的发生,本研究设计和开发了相关的生物信息学软件和数据库,将分析流程整合到软件中,并且能够适应多种原始数据的分析。相关软件已经在课题组的日常工作中发挥了重要的作用。综上所述,本研究建立了较为完整的基于高通量测序的新发传染病病原体分析技术。通过上述的研究过程,本论文总结了不同种类病原体的基于高通量测序的数据处理方法。对于已知的病原体,通过组装获取全基因组序列,采用多序列比对与系统发育分析相结合的方法,探索病原体基因组的进化规律,研究其遗传多样性与进化动力学;对于比较新的物种,通过组装获取全基因组序列,采用序列比较和基因注释的方法,通过基因注释对该病原体可能的致病性或者其他特征进行研究和分析。对于样品中未知的病原体,采用对标本进行宏基因组测序,利用智能判别算法从高通量测序的原始信息中快速筛查出可能的病原体。