论文部分内容阅读
病毒是世界上最丰富多样的微生物群体,其广泛存在于各种生物体及环境中,并且在环境和人类健康中扮演着重要的角色。病毒宏基因组学技术的出现打破了传统分离鉴定方法的瓶颈,加快了人类对病毒研究的步伐。随着测序技术的快速进步及相关费用的逐步降低,宏病毒组学技术已经成为新病毒发现的最为重要的手段之一。在以动物新发疫情监测和预警为主要功能的实验室,数据分析的效率和准确性对疫情早期防控至关重要,而目前以商业公司为依托的宏病毒测序及数据分析模式,无法满足该需求,亟需建立本地的宏病毒数据分析平台,为新发疫情早期预警提供技术支撑。为建立本地化动物宏病毒数据分析平台,本研究首先利用Perl语言程序及MySQL数据库语言建立起标准化且兼容性良好的病毒基因组参考数据库,其包含89个病毒科或属在内的11万多条目前已知的病毒全基因序列。其次,根据宏基因组数据分析流程,建立和部署了测序原始数据质控、数据清洗、序列拼接、序列注释、功能预测以及遗传演化分析等应用程序,构建起了本地宏病毒组数据分析平台。另外,根据动物新病毒发现中对敏感性和特异性的不同需求,建立了两种基因序列注释策略:基于读长序列分析(Assembly-free analysis)和基于重叠序列分析(Assembly-based analysis),前者能提高注释的敏感性,有利于发现低拷贝的病毒基因组序列;后者可提高注释的特异性,保障注释结果的准确性。为验证该平台的应用效果,首先利用数据质控和清洗软件对从安徽省采集的猪群鼻拭子样品及血清样品中获得的宏基因组数据进行了分析和处理,原始测序数据经接头序列及低质量序列去除后分别得到31490033和41208780对读长序列。将得到的读长序列利用MEGAHIT软件进行基因组序列组装,组装后结果显示鼻拭子样品得到415117条重叠序列(contig),血清样品得到81026条重叠序列。随后利用基础病毒基因组数据库和注释软件对组装后的重叠序列进行基因注释,结果显示鼻拭子样品中共计307 contigs被注释到1942条病毒序列,其中48.9%为指环病毒科(Anelloviridae)病毒序列,20.2%为细小病毒科(Parvoviridae)序列,16.2%为圆环病毒科(Circoviridae)序列,11.1%为冠状病毒科(Coronaviridae)序列;此外还包括多种其它病毒,如哺乳动物星状病毒、痘病毒、白血病病毒等;血清样品中共计10012条重叠序列被注释到1376条病毒序列,其中细小病毒科序列占66.5%,指环病毒科序列占29.5%,圆环病毒科序列占1.3%。以上结果说明血清样品和鼻拭子样品中病毒多样性存在差异。此外,实例宏病毒组数据分析发现不同研究策略分析效率略有不同,完成基于读长序列注释分析耗时1.5 d,而基于重叠序列注释分析则耗时3.5 d。以上研究结果表明,本研究成功建立了一个本地化的动物病毒宏基因组数据分析平台,利用该平台可高效、准确地完成动物病毒宏病毒组学数据分析,能满足新发动物病毒病监测和预警的需求,对我国动物疫病防控具有重要意义。