基于基因序列和互联网数据的流感病毒变异与流行预测研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:eric7272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流感是一种传播速度快、变异频繁及影响范围广的重大传染病,也是第一个实行全球监测的呼吸道传染病。流感病毒不断地通过基因序列的变异来躲避机体免疫系统对它的防控,一旦具备合适的条件,它就会随时暴发。据WHO(WorldHealthOrganization,世界卫生组织)报道,全球每年有300~500万人感染流感病毒,而其中25~50万人因此而死亡。流感给人类造成了巨大的社会危害和经济损失。近年来,随着生物信息学和计算机技术的飞速发展,对基因序列和互联网数据进行分析挖掘,能有效帮助疾病预防控制部门及时发现流感病毒变异,指导疫苗推荐,延伸流感监测范围,提前预测流感流行,是对现有流感监测体系的有效补充。本文针对基于基因序列和互联网数据的流感病毒变异与流行预测技术进行深入研究,主要工作内容和创新点如下:
  (1)研究了基于基因序列的流感病毒抗原表位推断及变异预测技术。本研究基于对流感病毒抗原HA(Hemagglutinin,血凝素)蛋白序列、HA蛋白结构和相关抗原变异及免疫逃逸文献报道数据的整合,首先,提出了与已知的H3N2病毒HA蛋白结构比对映射抗原表位,通过信息熵寻找突变热点以及整合文献报道的抗原变异相关位点推断高致病性禽流感H5N1病毒抗原表位的方法;然后,基于推断得到的抗原表位,分析了高致病性禽流感H5N1病毒的抗原变异机制,发现其五个抗原表位(A~E)中有两个抗原表位(A和B)对该病毒的抗原变异起到的作用最大;最后,通过整合抗原表位的贡献与HA蛋白发生的结构和物化特征变化,发展了一种快速预测高致病性禽流感H5N1抗原变异的计算模型,并进一步将该模型发展为在线服务器PREDAC-H5,以方便公众使用。
  (2)研究了基于基因序列的共进化网络模型及其在流感病毒变异研究中的应用。本实验室发展的共进化网络模型是一种在基因组水平上捕获病毒共进化模式的计算模型,它通过建立病毒基因组位点相互作用网络来描述病毒变异的规律。在此研究基础上,本研究首先使用R语言对该模型进行了实现,开发了R语言工具包“cooccurNet”,该工具包遵从GPL-3开源协议,发布在R语言公共资源库CRAN(ComprehensiveRArchiveNetwork)上。该工具包支持对核苷酸序列、氨基酸序列以及单核苷酸多态性(SingleNucleotidePolymorphism,SNP)等数据进行共进化网络的构建与分析,并通过支持R语言及CUDA(ComputeUnifiedDeviceArchitecture,统一计算设备架构)并行框架加速该模型的计算;其次,提出了一种残基共进化程度的度量方法—残基共进化评分(ResidueCo-OccurrenceScore,RCOS),该方法在识别氨基酸位点间结构约束方面与当前最主流方法的效果相当,但该方法更为简单,并且支持统计学显著性度量;最后,本研究在此工具基础上,从流感病毒表面蛋白HA(Hemagglutinin,血凝素)和NA(Neuraminidase,神经氨酸酶)共进化的角度,探索了不同种流感病毒亚型在适应性上存在差异的分子机制,发现不同亚型流感病毒的共进化网络存在亚型特异性特征,在不同亚型的共进化网络之间很少存在共同的边,进而表明不同亚型流感病毒的HA与NA的相互作用具有特异性。
  (3)研究了基于互联网数据的流感流行预测技术。现有流感监测网络对流感防控发挥了巨大的作用,但存在监测范围局限和报告时间滞后等不足。为此,本研究探索了基于互联网数据的流感流行预测技术。鉴于互联网数据规模大、类型复杂、噪声多、歧义性强的特点,结合中国传染病较强的地域特异性,本文首先研究了传染病本体知识库的构建及基于众包思想的知识库质量评估方法,探索了以传染病本体知识库为基础的传染病监测关键词选择策略;接着,在选择的流感流行监测关键词基础上,分别以搜索引擎指数和社交媒体指数为对象,建立了流感流行预测模型,评估了所建模型的地域特异性以及不同互联网数据对象对模型的影响。该研究表明基于互联网数据预测流感流行的方法可以弥补现有监测网络在监测范围和及时性方面的不足,可以作为流感监测网络的有效补充和延伸。
  流感病毒频繁的变异是病毒进化的主要驱动力,也是流感不断流行的主要原因。本文基于基因序列研究了流感病毒抗原表位推断与变异预测技术,病毒变异的共进化网络表达与度量方法及以此为基础的流感病毒适应性分子机制,还以互联网数据为对象研究了流感流行的预测方法。本文不仅具有一定的理论价值,丰富了流感流行预测方面的研究内容,并通过与国家流感中心的合作,提出基于基因序列和互联网数据的流感防控策略,对流感防控具有一定的实际应用价值。
其他文献
生物金属-有机框架(BiologicalMetal-OrganicFramework,简称BioMOF)是金属-有机框架(Metal-OrganicFramework,简称MOF)的一个新兴分支。BioMOF具备了传统MOF的优点,同时又有自身独特的优势,BioMOF往往具有生物兼容性,在载药、荧光探针、生物造影剂等方面显示出强大的应用潜能,是当前MOF领域的热点方向。  在本论文中,我们采用生物
癌症是目前危害人类健康和生命的高致命性疾病,其中化学治疗是主要治疗手段之一。但由于化学治疗药物对正常细胞的毒副作用以及肿瘤细胞耐药性的出现,寻找新型抗癌药物代替传统化学药物,势在必行。近年来,人们发现小分子多肽由于具有亲和力高,靶向特异性强,毒性低和分子量小等特点,其具有开发为新型肿瘤治疗药物的巨大潜力。值得一提的是,课题组前期通过化学合成获得了12条源于凡纳滨对虾(Litopenaeusvann
目前纳米级制剂已成为许多研究的焦点,为了增加抗癌药物的溶解度和应用范围,在开发新的药物递送系统中可以采用许多方法,其中引起很多关注的方法是制备靶向药物载体。这些纳米载体具有高特异性,它们避免了对正常组织的损害。纳米级制剂可以被癌组织或细胞选择性地吸收,从而赋予它们被动靶向功能。  为了增强纳米级抗癌药物递送系统的肿瘤靶向性,可控的药物释放和对于靶位点的治疗功效,大量的新型药物载体被研究与应用。壳聚
学位
地表水和地下水硝酸盐污染不仅会对人类的生产生活用水安全造成隐患,同时也会造成水体季节性缺氧和水体富营养化等问题。近年来,由于工业化进程的加快,汾河流域受到人类活动干扰的强度也不断加大。汾河流域地表水和地下水硝酸盐污染日益严重,已对沿岸居民的生产生活造成影响。  准确掌握地表水和地下水转化过程和污染过程,甄别硝酸盐污染来源,区分点源污染与面源污染,是控制地表水和地下水硝酸盐污染的有效途径。汾河流域位
学位
二氧化钒(VO2)是一种热致相变材料,它在68℃附近会发生从低温半导体态到高温金属态的可逆相变,同时伴随着电阻率和光学性质的突变。VO2薄膜中掺入其它元素可以把薄膜的相变温度降低到室温附近,因此掺杂VO2具有广阔的应用前景。通过反应磁控溅射法和真空退火处理结合的方法在玻璃基片上制备掺钨VO2薄膜(V1-xWxO2)。研究过程中,用XPS、XRD、SEM、AFM和台阶仪对薄膜的成分、微观结构、形貌和
学位
该论文选择HfO高K栅介质作为研究对象,利用反应溅射方法制备了HfO2栅介质薄膜;仔细分析了不同的工艺制备条件对其HfO栅介质电学性质和可靠性的影响;分析了HfO栅介质中的漏电流机制和应力感应的漏电流(Stress-induced leakage current,SILC)效应以及工艺条件的影响;同时还利用反应溅射方法制备了氮化的HfO(HfON)栅介质薄膜,研究了HfON高K栅介质的电学特性.研
数据挖掘技术能够高效利用信息资源,关联规则挖掘是数据挖掘中的最重要任务之一,广泛应用在市场营销,证券交易,医疗诊断等领域。然而挖掘包含敏感和隐私信息的数据时,若不采取保护措施,将会造成信息的泄露。传统的匿名保护会带来安全性的问题,而基于加密的隐私保护实用性较低,所以急需一种高可用性和安全性的隐私保护算法来对关联规则挖掘进行隐私保护。  与传统匿名保护不同,差分隐私不依赖攻击者的背景知识,提供了一种
学位
学位
一般学校的传统的组卷方式是教师手工组卷,要重复花费大量的精力、时间,且主观性、随意性较大,科学性、可靠性不足。近些年来出现的计算机自动组卷系统虽然改进了人工组卷的一些缺点,但其组卷方式均采用随机算法抽取试题组成试卷,测试结果的客观性和合理性存在不足。本文将遗传算法应用于计算机组卷系统避免了上述缺点,具有组卷效率高、可靠性好等优点。本文主要内容如下:  介绍了计算机自动组卷的现状、意义以及技术发展,
学位