膜蛋白跨膜螺旋预测的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wangya110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
膜蛋白大约占活性生物中已发现的蛋白质总数的30%,它在活性生物中的巨大作用可见一斑。膜蛋白已知的功能包括细胞间通信、调节细胞膜内外溶质与离子传输、作为细胞的“感觉器官”等。这些功能对维持生物活性至关重要。同时膜蛋白还是大部分药物的靶点,为了研制更加有效的药物也必须充分了解膜蛋白。膜蛋白的功能与其结构息息相关。然而,已知的高精度的膜蛋白结构非常少,因为膜蛋白非常不容易结晶而且用核磁共振的方法也不易处理。已有的用实验方法解出的螺旋膜蛋白少于500个,与整个人类基因组中的大约10000个螺旋膜蛋白相比,还有非常大的差距。在缺乏结构数据的情况下,基于蛋白质氨基酸序列的计算机预测方法成为理想的辅助。早期的预测方法利用了残基的疏水性系数绘制出蛋白质的疏水曲线,然后选定一个阈值,大于阈值的部分则被预测为TMH。这种方法忽视了残基间的相互作用以及TMH结构中存在的其它的复杂相互作用,导致了比较低的预测精度。现在已经逐渐被机器学习的方法所取代。机器学习的方法包括隐马尔可夫模型(HMMs)、神经网络(NNs)、基于证据理论的最近邻(OET-KNN)等。由此开发出了很多的预测器,如TOP-PRED、PHDhtm、MemBrain等。机器学习方法能够从样本中学习氨基酸之间的复杂联系,特别是在引入了进化信息的情况下。机器学习方法的引入大大提高了TMH的预测精度。但这些方法都是对蛋白质中单个的残基进行预测,然后得到该残基属于TMH的概率。它们的一大缺陷是没有利用TMH的整体信息特别是末端信息,从而降低了预测精度,特别是N,C末端的精度。本文提出一种考虑了TMH末端信息的方法。该方法利用SVM分类器对蛋白质序列的每个残基进行分类,得到其位于螺旋N(C)末端的概率。在用现有的机器学习方法预测出的TMH区间基础上利用得到的概率值对预测末端进行更新,得到更加准确的末端,从而提高跨膜螺旋的预测精度特别是末端的预测精度。预测方法被分为两个阶段,第一个阶段是用已有的机器学习方法得到膜蛋白TMH的预测区间。本文选用的方法为MemBrain。第二个阶段则是用SVM训练好的末端概率来更新预测区间,得到新的、更加精确的预测区间。为了得到科学准确的预测结果,训练和验证数据样本的选取是至关重要的。本文所用的数据全部是已知精确3D结构的且只含有跨膜螺旋结构的膜蛋白。该数据集的使用保证了本文实验结果的科学与准确。本文的实验结果是采用了现在通用的对数据做五倍交叉验证后的平均结果。对结果的性能评价也利用了大多数预测方法采用的每残基准确率和每跨膜螺旋准确率。为了检验对跨膜螺旋末端预测的准确率引入了N(C)分数。最后在对实验结果数据的分析基础上,本文还引入了预测准确率相对不同的重叠长度标准的曲线。我们的目的是尽可能准确的预测出一段跨膜螺旋位置,而不仅仅是一段跨膜螺旋中的几个残基,该曲线证实了改进后的方法的确可以得到更好的预测准确度,符合我们的期望。
其他文献
陶山果蔗是浙江瑞安市有名的传统特产,栽培历史悠久。近年来,陶山果蔗的栽培面积迅速扩大。据报道稀土元素对农作物具有增产和改善品质的作用,特进行陶山果蔗喷施“农乐”稀
大规模连续语音识别的研究已经进行了二十多年,虽已取得了显著进展,但距离广泛应用还有相当的距离。在克服识别算法本身缺陷、追求识别性能提升的过程中,研究者们逐渐引入了
期刊
大多数大规模复杂的工业过程都是多变量系统。与单变量系统相比,由于输入变量和输出变量之间的耦合,多变量系统更难控制。多变量系统的控制器有两种结构形式:即一个多变量控
8月15日中国市容报发表的一则简讯中,把广西壮族自治区说成是“广西省”。这个明显的错误,竟通过许多关口,见于报端。将自治区说成“省”,也散见于其它一些报刊。一字之差,
期刊
血糖维持一定正常水平是维持人类各器官和组织正常工作的重要条件,血糖过高或过低都将会对人体造成不良影响。虽然在血糖控制方面已经有很多研究成果,但算法性能仍然有待提高
期刊
基于计算机视觉的行人检测由于其在车辆辅助驾驶系统中的重要应用价值成为当前计算机视觉和智能车辆领域最为活跃的研究课题之一。其目的是利用安装在运动车辆上的摄像机检测
期刊
干藏法在收藏前洗净薄膜上的泥土,防止被沙粒顶破,稍晾干后用圆木棒把它卷起来,不要折叠存放,因为折叠容易破裂。将卷好的薄膜放在干燥和湿度适中的房子里。若房子阴暗潮湿