论文部分内容阅读
新发传染病(Emerging infectious diseases,EID)和再发传染病(reemerging infectious diseases,REID)在全球范围内呈上升流行趋势,其中急性呼吸道传染性疾病严重危害人类健康,是重要的社会公共卫生问题之一。对病原体进行快速精准发现和鉴定是有效控制传染病疫情的关键,目前宏基因组测序是发现病原体的最有效手段。牛津纳米孔测序技术(Oxford nanopore sequencing,ONT)是一种利用电信号来进行测序的新一代技术,具有超长读长、仪器便携、实时分析等优点,在病原体的变异分析与鉴定方面已经显示出巨大潜力。测序数据的质量和数据分析的便捷性决定了新技术的应用前景。咽拭子是呼吸道病原体检测的常见标本,往往含有一定量的正常微生物,这些微生物基因为测序数据带来了高背景,干扰了病原体的检测。因此,如何排除背景干扰、高效获得致病微生物的测序数据是宏基因组测序技术数据分析的重要挑战。此外,宏基因组测序数据的生物信息学分析大都依赖于Linux系统,对操作者的要求较高,限制了其广泛应用,迫切需要研发便捷的可视化分析技术平台。本研究通过自然语言处理技术(NLP)从Genbank中筛选了人类相关的病原体的基因序列数据库,并建立了可视化数据分析平台—Genostack。Genostack实现了后台数据的本地化,具有“零基础”操作的优势,既减少了数据比对时间,又降低传统的数据分析难度。同时,我们通过纳米孔测序技术初步分析了正常人咽拭子中微生物本底基因,从而可以更有效的分析临床咽拭子样本中的潜在病原体。最后,我们利用纳米孔测序技术结合Illumina测序技术从患者咽拭子样本中发现和鉴定了人冠状病毒229e(HCo V-229E),成功拼接出全基因组并初步分析了该病毒株的变异特征,为国内监测HCo V-229E的流行情况提供了可靠数据。研究目的:1.建立人相关病原体基因序列数据库,基于该数据库搭建简单、高效的可视化生物信息学分析平台Genostack。2.基于Nanopore测序技术初步建立正常人咽拭子中微生物基因组的本底数据。3.利用Nanopore测序技术和Genostack分析平台检测鉴定临床呼吸道样本的病原体。方法与结果:1.通过自然语言处理技术(NLP)从Genbank数据库中筛选出9755种人相关病原体基因组序列构建人相关病原体数据库,利用html语言、Dreamweaver、Microsoft Front Page、acess和一些动态语言等建立Genostack分析平台。该数据库包含1600种细菌、657种真核生物和7498种病毒;目前Genostack平台可以实现RNA、微生物和单细胞数据的各项基因功能分析。2.采集本单位的12个健康志愿者的咽拭子,通过非序列依赖单引物扩增(sequence independent single primer amplification,SISPA)方法进行样本处理,然后进行Nanopore测序,并对结果进行了序列比对和物种确定,初步明确了正常人咽拭子中存在的微生物基因组本底。通过计算,得出各细菌门的分布范围如下:拟杆菌门为29%~55%、变形菌门为12%~24%、厚壁菌门为4%~7%、梭杆菌门为2%~3%、放线菌门为0.3%~1.0%;细菌种属的分布范围如下:普雷沃氏菌(82%~93%)、黄杆菌(2%~9%)、γ-变形菌(61%~79%)、β-变形菌(5%~28%)、链球菌(35%~61%)、葡萄球菌(2%~7%)、韦荣氏球菌(17%~33%)、梭菌(2%~5%)、微单胞菌(0.6%~1%)、梭杆菌(54%~84%)、纤毛菌(9%~25%)、放线菌(19%~47%)。3.对来自临床患者的咽拭子首先通过宏基因组Illumina测序分析潜在的病原体,然后用q-PCR的方法进一步确定病原体,最后通过靶向扩增(Targeted amplification)的方法并结合Illumina测序和Nanopore测序平台的优势,利用Genostack平台拼接得到了人冠状病毒229e(HCOV-229E)的全基因组,并进行进一步分析。通过绘制其系统进化树,发现该HCo V-229E毒株在空间上与MW532103、MW532104、MN369046和MN306046密切相关。前两株毒株在我国广州报道,通过结合爆发时间与地点,我们初步推测本研究发现的HCo V-229E可能是来源于最近几年我流行的毒株;通过对其基因组注释功能分析,得到了HCo V-229E的1a、s、rep等基因。其中结构蛋白如S蛋白是其主要的抗原蛋白,N蛋白参与病毒粒子的准确组装,E蛋白在病毒装配时发挥重要作用。结论:1.与现有的公共数据库相比,人相关病原体数据库容量小而精,更适合于临床病原体的宏基因组数据分析,可显著提高物种比对的效率。2.Genostack平台以可视化方式,使得测序数据的生物信息学分析不再依赖于传统的Linux分析界面,大大降低数据分析的入门难度。3.通过对正常人咽拭子微生物基因组本底的初步分析,为临床呼吸道传染病的测序分析提供本底数据的参考范围,便于从复杂的临床宏基因组微生物数据中更有效地发现致病微生物。4.通过Nanopore测序分析,并结合Illumina测序验证,我们获得了HCo V-229E的完整基因组序列,明确了突变位点和变异特征。