论文部分内容阅读
抗氧化蛋白质能修复人类的DNA损伤,在癌症治疗等方面发挥巨大的作用,因此抗氧化蛋白质序列的分类预测在药物学中至关重要。蛋白质分类问题已成为蛋白质组学研究中的一个重要分支,自实施人类基因组计划至今,各种不同类型的生物数据数量迅猛增长,通过生物化学实验的方法鉴定蛋白质序列的类别十分耗时耗力,因此生物信息学对蛋白质信息的鉴别迫切需要从自动化的计算方法中获得支持。数据挖掘作为一种融合了统计学和数据库知识等新发展的技术,为生物研究者在数据分析和信息挖掘方面提供了便利,为识别和挖掘蛋白质信息等提供了便捷的方法。本文主要研究了数据挖掘中兴起的深度学习方法在蛋白质序列分类中的应用,主要内容如下:1.介绍了蛋白质一级序列的特征提取和分类方法。蛋白质一级序列包含足够的信息来预测蛋白质分子的生物功能,从其中提取的特征决定了后续分类器能达到的最佳性能。本文中应用生物中广泛使用的二肽组成来描述蛋白质序列信息,该特征提取方法无需借助其他任何信息,具有计算简单、快速的优点,对后续构建的分类器的性能好坏有决定性作用。2.提出了基于深度学习的蛋白质序列分类模型。较于依靠人工工程构造特征提取器的传统机器学习方法,深度学习本质是一种特征学习方法。深度学习将原始数据通过非线性的模型转变成为和分类有强关联性的抽象表示。本文的模型首先通过由编码器和全连接网络组成的特征学习网络,从原始特征向量学习到压缩的抽象特征,再使用t-SNE方法将抽象特征降维到二维空间中,最后放入分类器SVM对蛋白质序列进行识别。实验表明该模型其有较高的抗氧化蛋白质的识别效果,在本文的实验数据上达到F1值0.8842,MCC值0.7409,准确率97.05%,召回率81.27%,优于传统的机器学习方法。3.基于文中提出的模型,开发了在线抗氧化蛋白质识别web服务。该服务具有在线预测用户提交的蛋白质序列是否为抗氧化蛋白质的功能,此外还提供本文所用到数据集下载,方便用户使用与研究。