论文部分内容阅读
蛋白质泛素化修饰是重要的蛋白质翻译后修饰之一,在细胞凋亡、转录调控、细胞疾病、DNA修复等基本反应中承担着非常重要的角色。高效而准确的识别泛素化位点对于研究蛋白质泛素化修饰问题具有非常重要的生物意义。传统的基于生物识别方法需要研究人员在大量的蛋白质序列数据中进行生物实验验证,例如CHIP-CHIP分析法和质谱法等,这需要大量的时间和经济成本。而基于计算的识别方法,能够在大规模数据上进行高效而准确的预测泛素化位点,并且大多数基于计算的方法只需要蛋白质序列信息,识别更简便,因此,基于计算的方法应运而生。
本文从蛋白质赖氨酸修饰数据库中获取泛素化位点序列数据集,使用生物信息学工具对序列进行预处理,得到正负样本集。结合one-of-key编码和氨基酸理化属性对序列数据进行编码。提出了一个基于深度学习的预测模型,该模型主要有两个模块组成,分别是注意力模块和胶囊网络模块。注意力模块可以选择性的关注序列中氨基酸的重要程度,胶囊网络模块能够反映神经网络内部特征的空间位置关系。因此,本文结合注意力机制的胶囊网络模型能编码蛋白质序列之间的依赖关系和捕获序列中重要的氨基酸特征。实验结果表明,该模型的准确率、特异性、灵敏度、AUC、和MCC值在大多数情况下优于其他现有的预测模型。
本文从蛋白质赖氨酸修饰数据库中获取泛素化位点序列数据集,使用生物信息学工具对序列进行预处理,得到正负样本集。结合one-of-key编码和氨基酸理化属性对序列数据进行编码。提出了一个基于深度学习的预测模型,该模型主要有两个模块组成,分别是注意力模块和胶囊网络模块。注意力模块可以选择性的关注序列中氨基酸的重要程度,胶囊网络模块能够反映神经网络内部特征的空间位置关系。因此,本文结合注意力机制的胶囊网络模型能编码蛋白质序列之间的依赖关系和捕获序列中重要的氨基酸特征。实验结果表明,该模型的准确率、特异性、灵敏度、AUC、和MCC值在大多数情况下优于其他现有的预测模型。