基于深度学习的宏基因组病毒序列识别及其毒性预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:BalloonMan_Again
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第二代测序技术的成熟与发展,宏基因组学研究成为当前微生物研究的热点之一。作为地球上最丰富的生物实体,也是人体中最重要的组成部分之一,病毒在宿主细胞中复制,并且通过与宿主细胞之间的相互作用,在控制细菌种群大小、改变宿主新陈代谢等方面起着十分重要的作用。宏基因组学技术能够获取某一环境中所有微生物的遗传信息,基于宏基因组的病毒研究能够发现许多无法培养的病毒物种,且利于研究病毒与环境中宿主的相互关系,因而具有重要意义。然而病毒基因组是庞大的微生物世界中非常小的一类基因组实体,在实际分析过程中其它微生物信息有可能掩盖病毒基因组的信息。由于病毒不像原核生物那样具有固定保守的进化标记基因,并且某些病毒具有高突变率,因此想要从宏基因组数据中识别出病毒序列十分困难。病毒序列的识别是后续病毒分析的第一步,也是至关重要的一步。噬菌体是病毒中基数最庞大的物种,在任何存在细菌宿主的环境中都能够发现相应的噬菌体。虽然噬菌体可能会破坏细菌,但它们在某些情况下也有益于细菌种群,从而对微生物群落的组成产生至关重要的影响。对噬菌体毒性的准确分类有助于理解噬菌体的种群变化、基因组学和微生物学,对于研究噬菌体与细菌宿主相互作用关系以及它们在微生物群落调节中的不同作用具有十分重要的意义。识别出毒性噬菌体在噬菌体治疗和生物防治等方面也有重要的应用价值。想要准确地从宏基因组中的病毒和非病毒混合序列中识别出病毒序列存在一定困难,同时目前用于识别噬菌体毒性的生物信息学方法较少,且准确率较低。随着深度学习算法在机器视觉和自然语言处理领域的飞速发展,其对大数据分布具有强大的学习能力,而经过第二代测序技术获得的宏基因组数据包含大量DNA序列,为此本文开展基于深度学习的宏基因组病毒识别方法及噬菌体毒性预测方法的研究,具体研究内容如下:(1)构建一种基于强化密码子关联性的DNA序列编码模型。短病毒序列所包含的遗传信息较少,大多数基于深度学习的方法都是使用one-hot向量编码单个碱基或k-mer片段,但是每一个one-hot向量之间相互正交,其编码的序列各部分之间相互无关,并且当向量维度增大时,one-hot编码变得更加稀疏,这些都不利于丰富短序列的特征。为了提升短序列的特征表达,本文构建一种基于强化密码子关联性的DNA序列编码方式,通过神经网络无监督地学习病毒数据本身各部分之间的相互关系,将DNA序列编码为有意义的向量表示,增强短序列各部分之间的关联特征。(2)提出一种基于密码子强关联长短期记忆网络的短病毒序列识别模型。大多数基于深度学习方法使用的CNN模型,其卷积层中的滑窗操作以及池化层中的池化操作都容易导致序列特征信息提取不充分的问题,并且CNN中的滑窗机制使其在提取特征的过程中只关注当前窗口内的序列片段的局部信息,忽略了序列的全局信息,不利于精确识别短病毒序列。为了充分利用短序列的顺序特征,本文提出一种基于密码子强关联LSTM的短病毒序列识别方法。利用训练好的密码子嵌入矩阵,对DNA序列的密码子编码,并利用LSTM在时间上的循环来构建DNA序列的顺序特征,利用LSTM的长短期记忆特性,构建序列的全局特征,并利用注意力机制层加强序列局部信息的获取。在300bp和500bp长度的测试集中分别取得了0.9129和0.9354的AUC值,准确率分别达到了87.60%和91.80%。(3)提出一种基于序列跨层级连接的图卷积网络的长病毒序列识别模型。现有的基于深度学习的方法在识别长序列时需要对长序列进行分割,这种截断操作会丢失每个短序列在原长序列中的相互位置关系及其之间潜在的相互联系,这会导致长序列各部分间的相关性缺失,对最终的分类结果造成影响。为了解决该问题,本文提出一种基于序列跨层级连接的GCN的长病毒序列识别方法。通过在图中各节点间构建“直接边”、“局部边”和“段间边”来补充截断序列的段间关系,通过长序列词嵌入模型来强化各部分之间的关联。在各长度的测试集中取得了0.9604的AUC值,准确率达到了0.9413。(4)提出一种基于蛋白质特征嵌入多层自注意力网络的噬菌体毒性预测模型。目前用于识别宏基因组中噬菌体毒性的生物信息学方法较少,且用于区分毒性噬菌体和温和噬菌体的特征简单且单一。为此,本文提出一种基于蛋白质特征嵌入多层自注意力网络的噬菌体毒性预测方法。在构建的多层自注意力网络中引入带滑窗的局部自注意力机制,并对每层的键向量和值向量进行最大池化,同时在各层网络间引入残差连接丰富层间信息的传递,并结合蛋白质序列位置特异性矩阵特征,丰富噬菌体毒性特征,在<300bp、300-500bp、500-1000bp、1000-2000bp以及>2000bp长度的测试集识别噬菌体毒性的平均准确率分别为0.7899、0.8283、0.8416、0.8583和0.8681。综上,本文进行了系统的面向宏基因组数据的病毒识别及噬菌体毒性预测的研究,完成了宏基因组病毒序列识别及噬菌体毒性预测的任务,取得了比现有方法更好的识别结果。
其他文献
背景及目的孢子丝菌病(Sporotrichosis)是申克孢子丝菌及其卢里变种引起的皮肤、皮下组织、黏膜及淋巴系统的感染性疾病,偶可播散至全身引起多系统的损害。近年来孢子丝菌病发病率逐年上升,目前常用的治疗方法主要有抗真菌药物、光动力、温热疗法、冷冻和外科手术等,但效果不尽人意。随着对孢子丝菌病发病机制研究的不断深入,人们发现NOD样受体热蛋白结构域相关蛋白 3(NOD-like receptor
学位
报纸
目的:1.建立局部视网膜内铁离子过载的动物模型。探究视网膜内铁离子过载导致的视网膜退行性改变。2.探究视网膜内铁离子过载导致年龄相关性黄斑变性(Age-related macular degeneration,AMD)的发生机制。3.探究氘代二十二碳六烯酸(Deuterated-docosahexaenoic acid,D-DHA)对铁离子导致AMD改变的保护作用。4.探究膜铁转运蛋白和铜蓝蛋白对
学位
生物医学文献是生物医学领域获取知识的主要来源,这些丰富的知识在推动着健康、治疗理念、预防保健以及医疗管理等方面有着重要意义。呈指数级速度增长的医学文献因所涉及的内容巨大,已远远超出人类以传统方式获取知识的能力。从海量的电子文献中准确地获取有价值的、关键的医学知识,成为研究热点。本文针对信息抽取中语义信息丢失、外部资源利用不充分以及样本信息利用率不高等问题,以生物医学文本信息表示、语义知识利用及深度
学位
核糖核酸(Ribo Nucleic Acid,RNA)是生物体中重要的生物大分子,可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥,同时相同家族的非编码RNA(non-coding RNA,ncRNA)具有相似的功能,因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关
学位
医学的数字化发展带来了大量的生物医学数据,对这些数据的建模有助于研究人员诊断和治疗疾病,理解疾病的发病原理。生物医学数据主要分为生物组学数据和医学数据两种类型。生物医学数据具有复杂性,数据存在大量的冗余特征和噪声,很多特征可以被其他数据所代替,并且特征之间高度相关。对生物医学数据的精准建模及预测结果,关系到医学决策。生物医学数据挖掘的关键是设计出高性能模型。机器学习是生物医学领域建模分析的重要方法
学位
随着数据规模的增长和计算能力的提高,机器学习技术已被成功应用于许多领域。传统的机器学习方法需要大量有标签的训练数据,且要求训练数据和测试数据满足独立同分布假设。然而,实际环境复杂多变,传统机器学习方法的应用条件很难被满足,这极大地限制了机器学习技术在现实场景中的应用。领域适配放宽了传统机器学习中训练数据和测试数据之间的独立同分布约束,因而能够从相关领域(源领域)中挖掘知识,并利用得到的知识解决当前
学位
研究背景:山茄子(Brachybotrys paridiformis Maxim.ex Oliv.),属于紫草科附地菜族山茄子属植物,广泛分布于我国东北地区,繁殖能力旺盛,对生长环境要求较低。研究表明山茄子中氨基酸和微量元素含量丰富,具有一定的抗炎活性和丰富的抗氧化成分,无论在食品、保健食品,还是药品研发方面均具有很好的研究价值和开发潜力。本课题主要对山茄子中的化学成分及其抗乙肝病毒活性进行研究。
学位
从矿产普查、详查、细测到油气田开发的各阶段环节,地震勘探技术作为应用地球物理技术之一,发挥了极其重要的作用。但是,随着油气资源勘探向更深层、非常规领域的推进,野外采集的地震勘探记录往往呈现出弱有效信息、强噪声干扰以及复杂噪声波场的特征,使油气工业中要求的高信噪比、高分辨率、高保真度难以实现或达不到要求。因此,有效分离地震资料中的信号与噪声是地震勘探领域的关键技术之一。深度学习(Deep learn
学位
图像质量通常以成像系统对图片的获取,执行计算操作,压缩以及扩展为所需形式和跨平台传输的精度来衡量。换言之,图像质量是人类在感知和视觉系统的作用下对图像所包含信息详略程度以及带给人愉悦感受的相关程度的评价。图像质量有时也与图像的保真度有关,而保真度则进一步与真实图像的源分布相关联。衡量给定图像质量的指标有多种,其中图像-质量-评估(IQU)是常用的度量标准。此外,还有多种其他质量测量指标,包括PSN
学位