基于刺突蛋白序列和机器学习方法预测冠状病毒宿主分类研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:xixijeffkol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)是一种由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-COV-2)引起的呼吸道传染病。冠状病毒可跨物种传播到包括人类在内的多种哺乳动物,严重威胁人类健康及公共卫生安全。因此,快速准确地预测冠状病毒宿主分类对于未来防控流行病具有重要意义。本研究从美国国家生物信息中心(National Center for Biotechnology Information,NCBI)病毒数据库中收集数据,从2000年1月1日至2020年9月25日共获得19385条冠状病毒的刺突蛋白序列,将其按照分离物种来源分为人源性和非人源性。使用CD-HIT软件去除重复和冗余序列。分别按照随机划分和采样时间先后划分的方式,将数据集以8:2的比例划分为训练集和测试集。本研究使用蛋白质描述符和自然语言模型Seq2Vec来提取刺突蛋白序列特征,应用多种机器学习方法如支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forests,RF)以及深度学习方法门控卷积神经网络(Gated Convolutional Neural Network,GCNN)建立分类模型。使用训练集进行100次重复的5折交叉验证训练分类模型,并用测试集进行模型评估。最终选择Seq2Vec-GCNN作为最佳模型,其AUC值为0.9818,敏感性为90.06%,特异性为1,准确率为94.45%。选取去重复数据集共3216条序列,将数据按照不同类别宿主分为人类、猪类、禽类、蝙蝠、骆驼和其他哺乳动物共6类,按照收集时间排序后以8:2比例划分为训练集和测试集。使用分布描述符(CTDD)以及自然语言模型Seq2Vec提取刺突蛋白序列特征,并应用多种机器学习方法和深度学习方法使用100次重复的5折交叉验证训练分类模型,最后用测试集进行模型评估。在预测人类宿主方面Seq2Vec-GCNN作为最佳模型准确率高达99.37%,而在预测其他宿主分类方面CTDD-RF模型表现最佳,准确率分别为猪类95.82%,禽类95.96%,蝙蝠98.33%,骆驼92.06%,其他哺乳动物94.01%。以上结果分析得出,基于机器学习方法使用刺突蛋白序列构建预测冠状病毒宿主分类模型是切实有效的,可以及时、快速、准确的预测冠状病毒宿主分类,从而应用到未来的病毒防控中。随着SARS-Co V-2变异体不断出现,宿主类别可能会进一步发生改变,这使得预测冠状病毒宿主分类模型变得极为重要。本研究结果可能对未来预测和防控冠状病毒大流行具有极大参考价值。
其他文献
学位
淀粉样蛋白沉积疾病是由特定多肽或蛋白质聚集形成高度稳定的、具有细胞毒性的淀粉样蛋白纤维化沉淀所引起的。淀粉样肽β(Amyloidβ,Aβ)被认为是引起阿尔茨海默病(Alzheimer’s disease,AD)的致病蛋白。人胱抑素C(Human cystatin C,HCC)是一种广泛存在于人体的体液和组织液中的半胱氨酸蛋白酶抑制剂,可以抑制细胞外半胱氨酸蛋白酶活性。HCC可与可溶性的Aβ结合,研
学位
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问
学位
随着开源的软件越来越多,在项目开发过程,为了提高开发效率以及程序性能,不可避免的需要引用开源的库和开源的代码块。对于只能获取二进制的项目,通过二进制代码相似性分析来判断项目中是否使用了库中的代码,前人已经提出了一些解决方案,但这些方案要么只能针对单架构的二进制代码进行相似性分析,要么通过特征进行跨平台的函数进行分析,并不能获得不同架构函数真正的语义表示。本文提出了一个基于对比学习的方案来解决该问题
学位
随着环境污染越来越严重,有机化合物成为环境污染的主要危害,尤其是随着工业污水、生活废水、运输泄漏等方式排放到水体中的有机化合物对水生生物造成了极大的负面影响。然而有机化合物急性毒性的研究领域,传统生物实验方法时间长、费用高、方法复杂,计算机辅助构建的二元分类模型虽可对毒性进行划分,但无法准确对毒性进一步划分。多元分类模型不仅可以快速准确地对有机化合物水生生物急性毒性进行,还可以进一步的按照各个国家
学位
图像超分辨率是计算机底层视觉和图像处理领域的一项基础任务。因为低分辨率图像和高分辨率图像构成一个一对多的映射,所以图像超分辨率任务本质上是一个不适定问题。近年来,借助深度卷积神经网络的强大表示能力,基于深度学习的图像超分辨率方法取得了巨大的突破,这些深度学习的方法主要通过不断加深或加宽网络以获得更好的性能,其参数量不可避免地成倍增加。然而,在实际应用中,设备的内存和算力是有限的,难以支持大型网络的
学位
实时流数据是大数据时代的一种重要的数据组织形式,人们希望自适应流计算系统能够以低延迟和高吞吐量及时处理动态变化的实时数据流。流应用程序的有效运行时重配置被认为是保证流处理系统性能的关键之一,现有的许多工作都试图通过在某一种重配置机制的支持下,通过从某一个角度或对某一个层次进行的重配置来构建一个自适应的弹性流计算系统,如调整算子的并行度,调整任务部署以及调整流分区。本文认为,这些问题是紧密耦合的,因
学位
粮食安全问题是关系国计民生的根本性问题,病虫害、自然灾害等对我国粮食产量有着巨大的影响。在应对这些灾害时,网上与之相关的信息虽然繁多,但是存在内容表达差异以及知识零散等问题,数据存储结构以及表示方式等也各不相同,处于一种相对混乱的状态,人们难以高效地利用好这些信息。近十年里,知识图谱技术发展迅速,其能有效地描述各类事物,以及提高搜索查询的速度与质量,因此利用知识图谱相关技术来整合农业领域相关的数据
学位
慢性代谢性疾病主要包括II型糖尿病、高尿酸血症和肥胖,因其高发病率、高死亡率和年轻化趋势,成为人类健康的重要威胁。以α-葡萄糖苷酶、α-淀粉酶、黄嘌呤氧化酶及胰脂肪酶为靶点,寻求安全、毒副作用小的天然活性物质是这几种慢性代谢性疾病防治领域的研究热点。紫草素是一种源自紫草的天然活性物质,具有抗炎、抗菌以及抗肿瘤等药用价值。探究紫草素与几种慢性代谢病相关酶的相互作用机理对扩大紫草素的应用范围以及防治I
学位