论文部分内容阅读
流感是一种传播速度快、变异频繁及影响范围广的重大传染病,也是第一个实行全球监测的呼吸道传染病。流感病毒不断地通过基因序列的变异来躲避机体免疫系统对它的防控,一旦具备合适的条件,它就会随时暴发。据WHO(WorldHealthOrganization,世界卫生组织)报道,全球每年有300~500万人感染流感病毒,而其中25~50万人因此而死亡。流感给人类造成了巨大的社会危害和经济损失。近年来,随着生物信息学和计算机技术的飞速发展,对基因序列和互联网数据进行分析挖掘,能有效帮助疾病预防控制部门及时发现流感病毒变异,指导疫苗推荐,延伸流感监测范围,提前预测流感流行,是对现有流感监测体系的有效补充。本文针对基于基因序列和互联网数据的流感病毒变异与流行预测技术进行深入研究,主要工作内容和创新点如下:
(1)研究了基于基因序列的流感病毒抗原表位推断及变异预测技术。本研究基于对流感病毒抗原HA(Hemagglutinin,血凝素)蛋白序列、HA蛋白结构和相关抗原变异及免疫逃逸文献报道数据的整合,首先,提出了与已知的H3N2病毒HA蛋白结构比对映射抗原表位,通过信息熵寻找突变热点以及整合文献报道的抗原变异相关位点推断高致病性禽流感H5N1病毒抗原表位的方法;然后,基于推断得到的抗原表位,分析了高致病性禽流感H5N1病毒的抗原变异机制,发现其五个抗原表位(A~E)中有两个抗原表位(A和B)对该病毒的抗原变异起到的作用最大;最后,通过整合抗原表位的贡献与HA蛋白发生的结构和物化特征变化,发展了一种快速预测高致病性禽流感H5N1抗原变异的计算模型,并进一步将该模型发展为在线服务器PREDAC-H5,以方便公众使用。
(2)研究了基于基因序列的共进化网络模型及其在流感病毒变异研究中的应用。本实验室发展的共进化网络模型是一种在基因组水平上捕获病毒共进化模式的计算模型,它通过建立病毒基因组位点相互作用网络来描述病毒变异的规律。在此研究基础上,本研究首先使用R语言对该模型进行了实现,开发了R语言工具包“cooccurNet”,该工具包遵从GPL-3开源协议,发布在R语言公共资源库CRAN(ComprehensiveRArchiveNetwork)上。该工具包支持对核苷酸序列、氨基酸序列以及单核苷酸多态性(SingleNucleotidePolymorphism,SNP)等数据进行共进化网络的构建与分析,并通过支持R语言及CUDA(ComputeUnifiedDeviceArchitecture,统一计算设备架构)并行框架加速该模型的计算;其次,提出了一种残基共进化程度的度量方法—残基共进化评分(ResidueCo-OccurrenceScore,RCOS),该方法在识别氨基酸位点间结构约束方面与当前最主流方法的效果相当,但该方法更为简单,并且支持统计学显著性度量;最后,本研究在此工具基础上,从流感病毒表面蛋白HA(Hemagglutinin,血凝素)和NA(Neuraminidase,神经氨酸酶)共进化的角度,探索了不同种流感病毒亚型在适应性上存在差异的分子机制,发现不同亚型流感病毒的共进化网络存在亚型特异性特征,在不同亚型的共进化网络之间很少存在共同的边,进而表明不同亚型流感病毒的HA与NA的相互作用具有特异性。
(3)研究了基于互联网数据的流感流行预测技术。现有流感监测网络对流感防控发挥了巨大的作用,但存在监测范围局限和报告时间滞后等不足。为此,本研究探索了基于互联网数据的流感流行预测技术。鉴于互联网数据规模大、类型复杂、噪声多、歧义性强的特点,结合中国传染病较强的地域特异性,本文首先研究了传染病本体知识库的构建及基于众包思想的知识库质量评估方法,探索了以传染病本体知识库为基础的传染病监测关键词选择策略;接着,在选择的流感流行监测关键词基础上,分别以搜索引擎指数和社交媒体指数为对象,建立了流感流行预测模型,评估了所建模型的地域特异性以及不同互联网数据对象对模型的影响。该研究表明基于互联网数据预测流感流行的方法可以弥补现有监测网络在监测范围和及时性方面的不足,可以作为流感监测网络的有效补充和延伸。
流感病毒频繁的变异是病毒进化的主要驱动力,也是流感不断流行的主要原因。本文基于基因序列研究了流感病毒抗原表位推断与变异预测技术,病毒变异的共进化网络表达与度量方法及以此为基础的流感病毒适应性分子机制,还以互联网数据为对象研究了流感流行的预测方法。本文不仅具有一定的理论价值,丰富了流感流行预测方面的研究内容,并通过与国家流感中心的合作,提出基于基因序列和互联网数据的流感防控策略,对流感防控具有一定的实际应用价值。
(1)研究了基于基因序列的流感病毒抗原表位推断及变异预测技术。本研究基于对流感病毒抗原HA(Hemagglutinin,血凝素)蛋白序列、HA蛋白结构和相关抗原变异及免疫逃逸文献报道数据的整合,首先,提出了与已知的H3N2病毒HA蛋白结构比对映射抗原表位,通过信息熵寻找突变热点以及整合文献报道的抗原变异相关位点推断高致病性禽流感H5N1病毒抗原表位的方法;然后,基于推断得到的抗原表位,分析了高致病性禽流感H5N1病毒的抗原变异机制,发现其五个抗原表位(A~E)中有两个抗原表位(A和B)对该病毒的抗原变异起到的作用最大;最后,通过整合抗原表位的贡献与HA蛋白发生的结构和物化特征变化,发展了一种快速预测高致病性禽流感H5N1抗原变异的计算模型,并进一步将该模型发展为在线服务器PREDAC-H5,以方便公众使用。
(2)研究了基于基因序列的共进化网络模型及其在流感病毒变异研究中的应用。本实验室发展的共进化网络模型是一种在基因组水平上捕获病毒共进化模式的计算模型,它通过建立病毒基因组位点相互作用网络来描述病毒变异的规律。在此研究基础上,本研究首先使用R语言对该模型进行了实现,开发了R语言工具包“cooccurNet”,该工具包遵从GPL-3开源协议,发布在R语言公共资源库CRAN(ComprehensiveRArchiveNetwork)上。该工具包支持对核苷酸序列、氨基酸序列以及单核苷酸多态性(SingleNucleotidePolymorphism,SNP)等数据进行共进化网络的构建与分析,并通过支持R语言及CUDA(ComputeUnifiedDeviceArchitecture,统一计算设备架构)并行框架加速该模型的计算;其次,提出了一种残基共进化程度的度量方法—残基共进化评分(ResidueCo-OccurrenceScore,RCOS),该方法在识别氨基酸位点间结构约束方面与当前最主流方法的效果相当,但该方法更为简单,并且支持统计学显著性度量;最后,本研究在此工具基础上,从流感病毒表面蛋白HA(Hemagglutinin,血凝素)和NA(Neuraminidase,神经氨酸酶)共进化的角度,探索了不同种流感病毒亚型在适应性上存在差异的分子机制,发现不同亚型流感病毒的共进化网络存在亚型特异性特征,在不同亚型的共进化网络之间很少存在共同的边,进而表明不同亚型流感病毒的HA与NA的相互作用具有特异性。
(3)研究了基于互联网数据的流感流行预测技术。现有流感监测网络对流感防控发挥了巨大的作用,但存在监测范围局限和报告时间滞后等不足。为此,本研究探索了基于互联网数据的流感流行预测技术。鉴于互联网数据规模大、类型复杂、噪声多、歧义性强的特点,结合中国传染病较强的地域特异性,本文首先研究了传染病本体知识库的构建及基于众包思想的知识库质量评估方法,探索了以传染病本体知识库为基础的传染病监测关键词选择策略;接着,在选择的流感流行监测关键词基础上,分别以搜索引擎指数和社交媒体指数为对象,建立了流感流行预测模型,评估了所建模型的地域特异性以及不同互联网数据对象对模型的影响。该研究表明基于互联网数据预测流感流行的方法可以弥补现有监测网络在监测范围和及时性方面的不足,可以作为流感监测网络的有效补充和延伸。
流感病毒频繁的变异是病毒进化的主要驱动力,也是流感不断流行的主要原因。本文基于基因序列研究了流感病毒抗原表位推断与变异预测技术,病毒变异的共进化网络表达与度量方法及以此为基础的流感病毒适应性分子机制,还以互联网数据为对象研究了流感流行的预测方法。本文不仅具有一定的理论价值,丰富了流感流行预测方面的研究内容,并通过与国家流感中心的合作,提出基于基因序列和互联网数据的流感防控策略,对流感防控具有一定的实际应用价值。