论文部分内容阅读
膜蛋白大约占活性生物中已发现的蛋白质总数的30%,它在活性生物中的巨大作用可见一斑。膜蛋白已知的功能包括细胞间通信、调节细胞膜内外溶质与离子传输、作为细胞的“感觉器官”等。这些功能对维持生物活性至关重要。同时膜蛋白还是大部分药物的靶点,为了研制更加有效的药物也必须充分了解膜蛋白。膜蛋白的功能与其结构息息相关。然而,已知的高精度的膜蛋白结构非常少,因为膜蛋白非常不容易结晶而且用核磁共振的方法也不易处理。已有的用实验方法解出的螺旋膜蛋白少于500个,与整个人类基因组中的大约10000个螺旋膜蛋白相比,还有非常大的差距。在缺乏结构数据的情况下,基于蛋白质氨基酸序列的计算机预测方法成为理想的辅助。早期的预测方法利用了残基的疏水性系数绘制出蛋白质的疏水曲线,然后选定一个阈值,大于阈值的部分则被预测为TMH。这种方法忽视了残基间的相互作用以及TMH结构中存在的其它的复杂相互作用,导致了比较低的预测精度。现在已经逐渐被机器学习的方法所取代。机器学习的方法包括隐马尔可夫模型(HMMs)、神经网络(NNs)、基于证据理论的最近邻(OET-KNN)等。由此开发出了很多的预测器,如TOP-PRED、PHDhtm、MemBrain等。机器学习方法能够从样本中学习氨基酸之间的复杂联系,特别是在引入了进化信息的情况下。机器学习方法的引入大大提高了TMH的预测精度。但这些方法都是对蛋白质中单个的残基进行预测,然后得到该残基属于TMH的概率。它们的一大缺陷是没有利用TMH的整体信息特别是末端信息,从而降低了预测精度,特别是N,C末端的精度。本文提出一种考虑了TMH末端信息的方法。该方法利用SVM分类器对蛋白质序列的每个残基进行分类,得到其位于螺旋N(C)末端的概率。在用现有的机器学习方法预测出的TMH区间基础上利用得到的概率值对预测末端进行更新,得到更加准确的末端,从而提高跨膜螺旋的预测精度特别是末端的预测精度。预测方法被分为两个阶段,第一个阶段是用已有的机器学习方法得到膜蛋白TMH的预测区间。本文选用的方法为MemBrain。第二个阶段则是用SVM训练好的末端概率来更新预测区间,得到新的、更加精确的预测区间。为了得到科学准确的预测结果,训练和验证数据样本的选取是至关重要的。本文所用的数据全部是已知精确3D结构的且只含有跨膜螺旋结构的膜蛋白。该数据集的使用保证了本文实验结果的科学与准确。本文的实验结果是采用了现在通用的对数据做五倍交叉验证后的平均结果。对结果的性能评价也利用了大多数预测方法采用的每残基准确率和每跨膜螺旋准确率。为了检验对跨膜螺旋末端预测的准确率引入了N(C)分数。最后在对实验结果数据的分析基础上,本文还引入了预测准确率相对不同的重叠长度标准的曲线。我们的目的是尽可能准确的预测出一段跨膜螺旋位置,而不仅仅是一段跨膜螺旋中的几个残基,该曲线证实了改进后的方法的确可以得到更好的预测准确度,符合我们的期望。