基于16S rRNA序列可变区和神经网络的微生物物种分类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hefei666_y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物是一种看不见的生命,它几乎存在于世界上任何地方,包括高山、荒漠、空气以及人体内,它可以用于发酵食物、处理污水、生产燃料、酶和其它生物活性化合物,因此微生物物种分类在人类的生活和健康等许多方面都非常重要。16S rRNA基因序列存在于所有的原核微生物中,常用16S rRNA基因序列作为微生物物种分类的分子遗传标记物。基于16S rRNA基因序列的物种分类是指通过分析物种的16S rRNA序列得到其所属门、纲、目、科、属各个等级的物种信息。本文提出了一种基于神经网络进行微生物物种分类的方法,使用16S rRNA基因序列的可变区序列为目标序列,采用神经网络作为分类模型进行微生物物种分类。本文使用引物对的方式从16S rRNA全长序列中提取出各个可变区序列,使用基于滑动窗的k-mer方法将可变区序列进行分词操作,将分词后的序列使用嵌入层的方式向量化,并作为输入数据使用神经网络分类。通过对训练数据集的分析,本文设计了两种分类方案:一种为直接分类法,即通过分类模型直接将各个可变区序列分类到属等级;另一种为层次化分类法,先通过门等级分类模型将序列分类到门等级,再将分类到每个门等级的序列输入到此门等级下的属等级分类模型中,继而将序列分类到属等级。在两种分类方案上,又分别以LSTM和BiLSTM为分类模型进行了具体的实现,并对LSTM和BiLSTM的模型结构及参数进行了优化,得到了基于LSTM、层次化LSTM、BiLSTM、层次化BiLSTM四种分类模型。最后将四种模型经过多次交叉验证实验得到的分类结果进行比较,得到基于BiLSTM的分类模型的分类效果最好,因此将其作为各个可变区的最终分类模型。为了验证所得模型的有效性,本文使用来自NCBI的SRA数据库的数据集作为测试数据集,使用BLAST方法得到测试数据集中序列的各等级信息,将基于BiLSTM的分类模型与目前已有的分类模型RDP Classifier、16S Classifier进行实验比较。结果表明在分类精度方面,基于BiLSTM的分类模型均优于RDP Classifier和16S Classifier。在时间性能方面,基于BiLSTM的分类模型耗时在16S Classifier和RDP Classifier之间。综合考虑分类精度和时间性能两方面,基于BiLSTM的分类模型比16S Classifier、RDP Classifier更有优势。针对不同可变区的分类模型的分类性能可能不同的问题,本文对所有基于BiLSTM的分类模型的分类性能进行了分析,发现在门等级上,V5可变区的分类模型的分类精度最好,在除了门等级的其它等级上,V2可变区的分类模型的分类精度最高。最后,根据基于BiLSTM的分类模型的分类结果,本文对测试数据集各个文件的菌群组成进行了分析。
其他文献
为了满足所修复的1580支承辊的焊层质量及技术要求,根据产品要求设计选用了焊丝焊剂,按照工艺参数制作焊层模板试样并做机械性能实验,先后委托燕山大学、哈尔滨国家焊接材料质量监督检验中心等专业机构对其进行硬度测试、金相组织分析以及各项拉伸、疲劳强度、冲击以及力学性能等实验。通过实验能够证明首钢长白公司选定焊丝焊剂按照设计工艺方案得到的焊层达到焊层要求的硬度、金相组织及各项力学性能参数,完全满足支承辊修
低维纳米材料与结构由于其独特的性质而在未来光电子学芯片中具有潜在的应用价值,因此对低维纳米材料与结构的物理化学特性的表征是一项十分重要的内容,利用超快激光与物质相互作用可以获得材料的非线性光学信息,对研究材料的非线性效应具有十分重要的意义。因此在本文中我们搭建了超快非线性光谱与成像系统来实现低维纳米材料与结构的非线性光学表征,研究工作的创新点如下:(1)基于可调谐激发光源,所构建的光学系统能对各种
本文研究一类非线性Kirchhoff型方程组的初边值问题uu-M(‖▽u‖2+‖▽v‖2)△u-β△ut+α(1+|u|2)pu=f1(x),vu-M(‖▽v‖2+‖▽v‖2)△v-β△vt+α(1+|v|2)pv=f2(x).首先在适当的假设下得到一些先验估计.此外,通过先验估计和应用Galer-Kin方法获得解的存在唯一性,构造有界吸收集及解半群的紧性获得了整体吸引子.在整体吸引子存在性的基础
H-矩阵是一类重要的矩阵,其在量子力学、控制论和生物工程中具有广泛应用.本学位论文研究H-矩阵的三类子类矩阵,即几何加权不可约α-矩阵、代数加权α-矩阵以及代数加权不可约α-矩阵,应用其非奇异性,得到新的矩阵特征值定位集,同时引入代数加权范数,研究矩阵伪谱定位问题,得到新的伪谱定位集,具体为:首先应用几何加权α—矩阵和不可约性引入几何加权不可约α-矩阵,证明了几何加权不可约α-矩阵为非奇异H-矩阵
随着社交媒体的发展,用户在网络中不再局限于信息获取者这一角色,更是成为信息的生产者和传播者。相比于门户网站和搜索引擎等,人们在获取信息时更倾向于使用社交媒体。社交
近年来,无人机技术的快速发展使其能够胜任各类复杂任务,正逐渐应用于物流运输、地质勘测、信息收集、灾害救援等诸多领域。为了克服单无人机的限制并提高任务完成效率,多无
龙泉窑是我国制瓷史上最具代表性的南方青瓷窑场,在历经了宋元时期的繁荣发展以后,明末至清代开始走向衰退。清末民国时期是龙泉瓷业承上启下的关键点,但一直以来,关于清末民国龙泉瓷业的记录资料和研究极少,使这段历史变的模糊。本文通过窑址考古调查、访谈调查取证和文献考证等方法,对清末民国时期龙泉瓷业社会进行研究和梳理。清末民国时期,孙坑窑延续了龙泉窑窑火,但其产品风格有别于宋元明时期的如玉厚釉装饰,从技术体
本论文主要研究实Banach空间中弱集值均衡问题解的存在性和差函数的高阶误差界.首先,使用Fan-Glicksberg-Kakutani定理,得到了实Banach空间中弱集值均衡问题解存在的充分条件.其次,利用非光滑分析技巧,得到了具有集合约束的差函数存在高阶误差界的充分条件和必要条件。
21世纪即将进入5G的时代,移动通信正在朝着更高的传输速率、更低的延迟、更宽的带宽、更高的频谱利用率的方向快速发展。OFDM技术作为5G通信领域的一项关键技术,在移动通信的应用领域发挥着重要的作用。本文主要研究了OFDM系统的信道估计与信号检测技术,设计并实现了基于AD9361的同步信号检测系统。首先研究了OFDM系统中传统的信道估计算法,并通过仿真,分析不同导频方案设计的传统信道估计算法的局限性
在多细胞生物体的形成过程中,各种类型细胞的分化及形态建成是发育生物学的重要研究内容。在模式植物拟南芥中,叶表皮扁平细胞是研究细胞形态建成机制的理想模型。本实验室在