论文部分内容阅读
蛋白质是细胞和生物体生命活动的主要承担者是生物性状的体现者。近年来,随着生物科技的不断发展,蛋白质数据呈雪崩式增长,仅仅通过生物实验来满足人们对于蛋白质结构和功能研究已经不太现实了。为了缩短研究周期和节约宝贵的研究经费,生物信息学者开发出一系列基于计算的方法来预测蛋白质的众多属性。在蛋白质研究中存在许多专业分类方法,每一种分类准则在一定领域内都有很重要的实用价值。蛋白质分类问题作为蛋白质组学研究的一个分支,近年来受到越来越多研究者们的关注。蛋白质分类研究是全面掌握蛋白质结构与功能的前提和基础,在分子生物学、细胞生物学、药理学和医学中扮演着非常重要的角色。本文在前人研究基础上,针对当前蛋白质分类预测研究中的三个热点问题:酶催化位点预测、DNA绑定蛋白识别和抗冻蛋白质识别进行了研究。虽然蛋白质的结构信息对预测其功能有非常大的帮助,但由于现有生物技术的限制,人们还不知大多数蛋白质的结构信息,蛋白质一级结构顺序决定了其三级结构和功能,所以本研究采用了基于蛋白质序列信息的方法。我们在构建氨基酸数字模型的时候,在数据层融合了氨基酸的物理化学性质、氨基酸成分、特异性位置打分矩阵、灰色动态因子和二联体组成成分等信息,所建立的蛋白质序列离散模型不仅简单,而且包含丰富的物理化学和遗传进化信息。在训练集构建过程中严格选用生物实验所确定的数据,并去除了有冗余度的数据,使得训练集能很好的对设计的算法进行评估。基于智能算法优良的鲁棒性,我们采用模糊K近邻法和随机森林法,以及融合算法,建立了酶催化位点预测、DNA绑定蛋白识别和抗冻蛋白质识别预测器,这些预测器与现有方法相比,在准确度、灵敏度、特异性、Matthew相关系数和ROC指标上都有较大提高。我们还分别建立了在线预测器网站,并且详细说明了操作步骤,方便广大研究者及时使用,使得生物学者不用考虑算法中的复杂公式,只要在网站上输入相关格式的蛋白质序列,就可以得到预测值,提高了预测器的使用效果。本文所设计的预测算法同样能够应用于其它相关的蛋白质预测研究领域。