论文部分内容阅读
蛋白质是生命的物质基础,没有蛋白质就没有生命。氨基酸是组成蛋白质的基本单位,氨基酸通过脱水缩合连成蛋白质链。蛋白质的氨基酸序列是由对应基因所编码。蛋白质序列通过折叠构成一定的空间结构,从而发挥某一特定功能。蛋白质的某些氨基酸残基可以被翻译后修饰而发生化学结构的变化,进而对蛋白质进行激活或调控。蛋白质能够在细胞中发挥多种多样的功能,涵盖了细胞生命活动的方方面面。蛋白质序列、结构、功能的研究对生命科学及制药工程具有重要的意义。 随着高通量技术的快速进步,实验测定的蛋白质序列数量呈指数增长。但是采用传统生物实验的方法决定蛋白质序列的结构功能是相当的费时费力。因此,已知序列的蛋白质的数目同已知结构和功能的蛋白质的数目之间的鸿沟有加速扩大到趋势。采用计算的方法预测蛋白质的结构和功能可以及时有效地弥补传统生物实验的不足。 本论文基于先进的机器学习技术,以及蛋白序列特征、预测的结构特征、进化特征、物理化学特征等,开发设计出了蛋白质序列分类和位点标记的计算方法,其性能优于当前已有的计算预测方法。特别地,本文重要的贡献在于:芋螺毒素分类预测,蛋白质信号肽分类和信号肽剪切位点识别,钙激活蛋白酶底物剪切位点识别,原核蛋白中类泛素化位点发现。论文主要研究内容和创新点如下: 1.基于集成特征预测芋螺毒素超家族 芋螺毒素是二硫化物丰富的无价的靶向通道肽,可以靶向神经元感受器。在治疗老年痴呆症,帕金森症,癫痫症方面,芋螺毒素作为有效的药物而展示出良好的应用前景。因此,为了进一步了解芋螺毒素的生物和药理功能,有必要首先对芋螺毒素的超家族进行计算预测分类。 芋螺毒素蛋白质的超家族类别是由多种因素共同决定的,而且可抽象为典型的多类分类问题。基于此特点,本文提出了多特征集成预测的思想。首先创建了最新的基准数据集,然后提取芋螺毒素蛋白质氨基酸序列的物理化学属性特征,并进行小波变换之后采用随机森林进行降维,同时蛋白质序列氨基酸组成特征、蛋白质序列的进化特征、蛋白质序列的二级结构特征,随后构建了多个一对多的支持向量机模型,最终开发出了新颖的算法PredCSF算法,并将所开发出的PredCSF算法成功应用于芋螺毒素超家族分类预测。实验结果表明:在本文新构建的基准数据集上,PredCSF能获得90.65%的准确率。基于芋螺毒素蛋白序列的多种特征,本文提出的方法能对芋螺毒素超家族进行有效的预测分类,这将极大地促进治疗慢性疼痛,癫痫症等疾病的药物开发。 2.基于扩散映射降维和子空间分类器判别芋螺毒素超家族 为了进一步改善芋螺毒素超家族分类精度,并针对提取芋螺毒素多因素特征后产生的高维数据问题,同时考虑到芋螺毒素超家族分类本质是多类分类问题。本文提出了基于扩散映射进行数据降维,采用并改进本质多类分类器HKNN,最后整体成功地应用于对芋螺毒素超家族的分类预测。 首先,芋螺毒素蛋白质序列的物理化学属性、进化信息、预测的二级结构信息和氨基酸组成等作为特征被提取出来;其次,为了获取数据几何描述的有效表示,把马尔可夫矩阵的特征函数看作是原数据集上的一个坐标系统,基于扩散映射进行数据降维;最后,考虑扩散空间中的局部密度信息,改进了局部超平面K近邻子空间分类器(HKNN),提出了dHKNN算法进行芋螺毒素超家族的预测分类。在基准数据集上,本文提出的dHKNN通过严格的留一法交叉验证测试,取得了91.90%的分类精度,显示出良好的应用前景。 3.基于特异位置氨基酸倾向性和条件随机场预测蛋白质N-端信号肽 无论是在原核生物还是真核生物中,绝大部分的分泌性蛋白和许多内在膜蛋白的靶向和易位,都必须依靠蛋白质的信号肽。在分子生物学中,一项重要的任务就是精确地预测识别蛋白质的信号肽。蛋白质的信号肽通常具有三个常见的结构域,中间一个是明显的疏水区域,而非信号肽则没有这种明显的特征。信号肽剪切位点是由复杂的序列模式所决定的。 首先,针对蛋白质的信号肽具有疏水结构域特征,本文提出了一种新颖的判别评分方法,依靠集成疏水性比对和基于最高平均疏水位置的氨基酸倾向性,该方法成功地完成了信号肽和非信号肽的区分。结果显示,对于三种不同物种,即真核生物,革兰氏阴性菌,革兰氏阳性菌,在所构建的基准测试集上进行严格的留一法交叉测试,该方法分别能以96.3%,97.0%和97.2%的准确率区分三个物种的信号肽和非信号肽;其次,针对决定信号肽剪切位点的复杂氨基酸序列模式,本文把信号肽剪切位点的识别归结为典型的序列标记问题而不是常规地分类问题。本文创新性地提出用概率图模型来捕获这些氨基酸序列模式关系,构建条件随机场(CRF)模型成功地应用于信号肽剪切位点识别。实验结果证明:本文所提出的基于条件随机场(CRF)的方法能分别以80.8%,89.4%,和74.0%的精度识别三个物种的信号肽的剪切位点。 4.基于条件随机场和多序列比对从跨膜螺旋中判别N-端信号肽 尽管文献已经发表了很多从蛋白质序列出发预测信号肽的方法并构建了相应从在线预测工具,但是所有这些方法在区分蛋白质的信号肽和N-端跨膜螺旋都表现的能力较弱。如采用上面提到的信号肽预测方法进行全基因组识别研究,必然会得到大量来自N-端跨膜区域的假阳性预测结果。如何尽量降低这类假阳性预测是一个亟待解决的重要问题。 在此研究中,本文提出基于条件随机场(CRF)算法并结合了多序列比对(Alignment)算法来整体完成蛋白质信号肽的识别,同时完成对信号肽和跨膜螺旋区域的区分。条件随机场(CRF)不仅能建模单氨基酸残基的信息,而且能建模不同距离的氨基酸残基对之间的关联信息。采用多序列比对作为补充,能充分利用数据集中的同源信息。实验结果表明:所提出的方法胜过了SignalP4.0。 5.基于蛋白质序列信息使用条件随机场标记钙蛋白酶底物剪切位点 依赖于Ca2+的半胱氨酸蛋白酶中的钙激活蛋白酶家族在许多生物过程中扮演至关重要的角色,而且同各种病理状态密切相关。被激活的钙蛋白酶可以有选择地在特定的剪切位点剪切相关的底物蛋白,使完整的底物蛋白被分成可以执行不同功能的多个片段。但是在现阶段,由于相关的传统生物实验非常费时,而且价格昂贵,导致人类对于钙激活蛋白酶的功能和他们的底物剪切机制的认知非常有限。计算预测的传统方式是,首先从整个蛋白质序列中分离出包含潜在剪切位点的短的肽段,然后采用两类分类器去预测识别。传统方式的问题在于,由于在训练数据中,负样本远远多于正样本,导致所构建的分类器存在显著地偏向。本质看来,识别钙蛋白酶底物剪切位点是一个典型的序列标记问题,而且决定剪切位点的因素是多方面的,同时还存在极端类别不平衡问题。 针对这些问题,本文提出了提取多角度特征,并分别建立条件随机场(CRF)模型,采取结果融合的策略,总体开发出了LabCaS算法。所提出的LabCaS算法被成功地应用于钙蛋白酶底物剪切位点识别。在构建的基准数据集上,采用最严格的留一法测试,得到最优的AUC值是0.862。同时,为了加速后基因组时代的大规模数据分析的进程,本文基于LabCaS算法不但进行了大规模的钙激活蛋白酶底物剪切位点识别分析,而且还进行的具体的个案研究,为生物学家提供了丰富的计算分析结果。 6.基于伪氨基酸组成和极端学习机识别原核蛋白质中的类泛素化位点 在结核分枝杆菌中,为了进行选择性的蛋白质降解,原核的类泛素化蛋白依靠形成异构肽键而附着在底物蛋白的特异的赖氨酸残基K上。作为最重要的一类原核蛋白的翻译后修饰,原核中的类泛素化在调控广泛的生物过程扮演至关重要的角色。为了全面深入地了解这些原核类泛素化相关的生物过程,类泛素化位点的识别是首要的步骤。而传统的实验室试验方法识别类泛素化位点是相当费时费力的。类泛素化位点主要发生在赖氨酸K之上,而且与赖氨酸K附近的其他氨基酸残基有关。具体抽象出来,就是识别哪些包含赖氨酸K的肽段是类泛素化位点。 为了及时有效地发现类泛素化位点,本文提出对包含赖氨酸K的肽段采取伪氨基酸组成(PseAAC)的编码策略,这样就能捕获肽段内的氨基酸之间的相关信息,采用极端学习机(ELM)构建预测模型,整体形成PupS算法。本文提出了一种基于伪氨基酸组成编码和极端学习机的新颖计算预测器PupS,在所构建的训练集上进行严格的留一法交叉验证测试,获得0.6483的AUC值,在所构建的独立测试集上获得0.6779的AUC值。结果证明:本文所提出的方法优于当前现存的方法,而且有较快的速度,适合进行全基因组的数据分析。