论文部分内容阅读
蛋白质翻译后修饰是计算生物领域最重要的问题之一,通过将碳、氧、氮原子上引入乙酰基CH3CO-,以及功能基团添加到一个及以上的氨基酸上改变蛋白质的性质的反应被称为乙酰化。乙酰化一直以来,是最重要的翻译后修饰之一,在许多生物机制中发挥重要作用,例如转录调节机制,细胞凋亡以及细胞的因子信号传导。研究某个氨基酸残基是否会发生乙酰化反应,以及对乙酰化机制的探索和学习对理解细胞的遗传信息表达、生物机理的调控有重要意义。用于鉴定蛋白质乙酰化位点的现有方法可以分为两大类:质谱法和计算方法。基于质谱的实验方法可以发现来自真核生物的乙酰化位点,但是可能耗时且昂贵。因此,有必要开发能够有效且准确地鉴定蛋白质乙酰化位点的计算方法。现有的计算方法通常依赖特征工程,数据收集、特征提取的好坏严重影响乙酰化位点判断的准确,多余的特征和不相关的特征将分别导致冗余和判断失误。基于这些问题,本文使用深度学习框架帮助乙酰化位点预测,它能够通过多层网络和非线性映射操作从大规模训练数据集挖掘潜在特征。在这项研究中,本文提出了双模型深度学习架构帮助乙酰化位点的预测。首先从蛋白质赖氨酸修饰数据库(PLMD)中收集数据,包括泛物种乙酰化数据以及三个物种的乙酰化数据,并划分为训练集、验证集和独立测试集。再从数据中提取两类特征,一是蛋白质序列信息,二是理化属性。针对两类特征,先训练了两个不同的网络,再将两个网络融合增加预测位点的准确性,并使用贝叶斯方法进行调参优化。为了预测数据集规模较小的物种特异性数据,利用迁移学习,将网络迁移到特定物种数据集上进行乙酰化位点预测,也取得了好的效果。实验结果显示了本文网络的有效性,准确率为70.8%,敏感性为72.3%,特异性为70.7%,MCC值为0.251。在物种特异性数据上也取得了比其他工具好的表现,说明本网络可以适用于乙酰化位点预测。