论文部分内容阅读
随着第二代测序技术的成熟与发展,宏基因组学研究成为当前微生物研究的热点之一。作为地球上最丰富的生物实体,也是人体中最重要的组成部分之一,病毒在宿主细胞中复制,并且通过与宿主细胞之间的相互作用,在控制细菌种群大小、改变宿主新陈代谢等方面起着十分重要的作用。宏基因组学技术能够获取某一环境中所有微生物的遗传信息,基于宏基因组的病毒研究能够发现许多无法培养的病毒物种,且利于研究病毒与环境中宿主的相互关系,因而具有重要意义。然而病毒基因组是庞大的微生物世界中非常小的一类基因组实体,在实际分析过程中其它微生物信息有可能掩盖病毒基因组的信息。由于病毒不像原核生物那样具有固定保守的进化标记基因,并且某些病毒具有高突变率,因此想要从宏基因组数据中识别出病毒序列十分困难。病毒序列的识别是后续病毒分析的第一步,也是至关重要的一步。噬菌体是病毒中基数最庞大的物种,在任何存在细菌宿主的环境中都能够发现相应的噬菌体。虽然噬菌体可能会破坏细菌,但它们在某些情况下也有益于细菌种群,从而对微生物群落的组成产生至关重要的影响。对噬菌体毒性的准确分类有助于理解噬菌体的种群变化、基因组学和微生物学,对于研究噬菌体与细菌宿主相互作用关系以及它们在微生物群落调节中的不同作用具有十分重要的意义。识别出毒性噬菌体在噬菌体治疗和生物防治等方面也有重要的应用价值。想要准确地从宏基因组中的病毒和非病毒混合序列中识别出病毒序列存在一定困难,同时目前用于识别噬菌体毒性的生物信息学方法较少,且准确率较低。随着深度学习算法在机器视觉和自然语言处理领域的飞速发展,其对大数据分布具有强大的学习能力,而经过第二代测序技术获得的宏基因组数据包含大量DNA序列,为此本文开展基于深度学习的宏基因组病毒识别方法及噬菌体毒性预测方法的研究,具体研究内容如下:(1)构建一种基于强化密码子关联性的DNA序列编码模型。短病毒序列所包含的遗传信息较少,大多数基于深度学习的方法都是使用one-hot向量编码单个碱基或k-mer片段,但是每一个one-hot向量之间相互正交,其编码的序列各部分之间相互无关,并且当向量维度增大时,one-hot编码变得更加稀疏,这些都不利于丰富短序列的特征。为了提升短序列的特征表达,本文构建一种基于强化密码子关联性的DNA序列编码方式,通过神经网络无监督地学习病毒数据本身各部分之间的相互关系,将DNA序列编码为有意义的向量表示,增强短序列各部分之间的关联特征。(2)提出一种基于密码子强关联长短期记忆网络的短病毒序列识别模型。大多数基于深度学习方法使用的CNN模型,其卷积层中的滑窗操作以及池化层中的池化操作都容易导致序列特征信息提取不充分的问题,并且CNN中的滑窗机制使其在提取特征的过程中只关注当前窗口内的序列片段的局部信息,忽略了序列的全局信息,不利于精确识别短病毒序列。为了充分利用短序列的顺序特征,本文提出一种基于密码子强关联LSTM的短病毒序列识别方法。利用训练好的密码子嵌入矩阵,对DNA序列的密码子编码,并利用LSTM在时间上的循环来构建DNA序列的顺序特征,利用LSTM的长短期记忆特性,构建序列的全局特征,并利用注意力机制层加强序列局部信息的获取。在300bp和500bp长度的测试集中分别取得了0.9129和0.9354的AUC值,准确率分别达到了87.60%和91.80%。(3)提出一种基于序列跨层级连接的图卷积网络的长病毒序列识别模型。现有的基于深度学习的方法在识别长序列时需要对长序列进行分割,这种截断操作会丢失每个短序列在原长序列中的相互位置关系及其之间潜在的相互联系,这会导致长序列各部分间的相关性缺失,对最终的分类结果造成影响。为了解决该问题,本文提出一种基于序列跨层级连接的GCN的长病毒序列识别方法。通过在图中各节点间构建“直接边”、“局部边”和“段间边”来补充截断序列的段间关系,通过长序列词嵌入模型来强化各部分之间的关联。在各长度的测试集中取得了0.9604的AUC值,准确率达到了0.9413。(4)提出一种基于蛋白质特征嵌入多层自注意力网络的噬菌体毒性预测模型。目前用于识别宏基因组中噬菌体毒性的生物信息学方法较少,且用于区分毒性噬菌体和温和噬菌体的特征简单且单一。为此,本文提出一种基于蛋白质特征嵌入多层自注意力网络的噬菌体毒性预测方法。在构建的多层自注意力网络中引入带滑窗的局部自注意力机制,并对每层的键向量和值向量进行最大池化,同时在各层网络间引入残差连接丰富层间信息的传递,并结合蛋白质序列位置特异性矩阵特征,丰富噬菌体毒性特征,在<300bp、300-500bp、500-1000bp、1000-2000bp以及>2000bp长度的测试集识别噬菌体毒性的平均准确率分别为0.7899、0.8283、0.8416、0.8583和0.8681。综上,本文进行了系统的面向宏基因组数据的病毒识别及噬菌体毒性预测的研究,完成了宏基因组病毒序列识别及噬菌体毒性预测的任务,取得了比现有方法更好的识别结果。