论文部分内容阅读
细胞穿膜肽是一类特殊的多肽序列,其能够携带各种物质穿透细胞膜,过程中几乎不会对细胞膜造成损伤。这种独特的性质使其能够作为载体将各种药物等货物运送到目标细胞中,从而在医学和生物学中具有很高的研究价值,被广泛应用到肿瘤医治和基因治疗等多个方向。同时,使用传统的分子生物学测试方法来识别细胞穿膜肽既耗时又昂贵。因此,如何通过计算方法从蛋白质序列中识别细胞穿膜肽是一个重要而有价值的问题。当前主流的分类算法大体可分为两类,第一类先使用不同的特征表示方法获取序列的特征向量,再将提取得到的特征向量输入到不同的机器学习分类算法中来对蛋白质序列的类型进行预测;第二类则直接使用神经网络对蛋白质序列进行特征提取与预测。本文提出了一种新的细胞穿膜肽识别算法模型ConvCPP,利用加入注意力机制的卷积神经网络提取蛋白质序列特征,再结合其他特征提取算法得到序列最终的特征表示,最后再集成多种机器学习分类器对细胞穿膜肽进行分类识别。本文训练模型使用的数据集为CPP924,其中包含了细胞穿膜肽序列与非细胞穿膜肽序列各462个。CPP924数据集已由作者筛选整理,保证序列间的相似度不会超过80%,确保了不会出现过多的相似序列导致训练出的模型预测性能受到影响。在获取蛋白质序列的特征向量时,利用蛋白质理化性质的特征表示算法可以直接使用不同的算法进行提取,而使用卷积神经网络的方法需要先将文本格式的蛋白质序列转化为向量格式,便于作为网络的输入。本文采用的做法是将蛋白质序列中的每个氨基酸表示为一维向量,再通过拼接的方式来实现整个序列的向量表示。在使用卷积神经网络对蛋白质序列进行预测时,本文对网络的结构进行了一定的改进与优化,包括在将特征向量输入卷积层之前加入了注意力层,使卷积层能够更有效的提取序列特征,同时根据实验结果对池化层的池化方式进行了调整,将最大池化改为了动态k-max池化方式,有效提高了模型性能。除此之外,模型还结合了多种其他常规蛋白质特征表示算法,包括氨基酸组成法、重叠属性表示法和20位表示法,并对结合后的特征向量采用了最大相关最小冗余算法和T检验算法进行特征选择,从而降低了特征融合带来的信息冗余,进一步提高了模型的性能。在之后的分类部分,采用了多种机器学习分类算法,包括朴素贝叶斯算法,K最近邻算法,支持向量机,随机森林和极限梯度推进算法对提取的特征向量进行分类,并采用投票方式集成了这几种分类器的分类结果。为了验证本文提出模型的性能,文章设计了多个对比实验,包括卷积网络的消融实验,使用不同特征表示方法的对比实验,使用不同分类器的对比实验等,验证了卷积网络模型改进的有效性与模型对细胞穿膜肽的识别能力。在CPP924数据集上的实验结果显示,ConvCPP与使用同样数据集的当前其他预测模型对比,准确率ACC提高了2.2%,马修斯相关系数MCC提高了0.043。对比结果表明,本文的方法比起当前的其他细胞穿膜肽识别方法具有更好的预测性能。