蛋白质分子模式分析及识别研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：xiaofeixiaheiwa

【摘要】

：

蛋白质是生命的物质基础，没有蛋白质就没有生命。氨基酸是组成蛋白质的基本单位，氨基酸通过脱水缩合连成蛋白质链。蛋白质的氨基酸序列是由对应基因所编码。蛋白质序列通过折叠

【作者】

：

樊永显

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2013年期

【关键词】

：

蛋白质序列分子模式识别支持向量机机器学习芋螺毒素钙激活蛋白酶信号肽

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质是生命的物质基础，没有蛋白质就没有生命。氨基酸是组成蛋白质的基本单位，氨基酸通过脱水缩合连成蛋白质链。蛋白质的氨基酸序列是由对应基因所编码。蛋白质序列通过折叠构成一定的空间结构，从而发挥某一特定功能。蛋白质的某些氨基酸残基可以被翻译后修饰而发生化学结构的变化，进而对蛋白质进行激活或调控。蛋白质能够在细胞中发挥多种多样的功能，涵盖了细胞生命活动的方方面面。蛋白质序列、结构、功能的研究对生命科学及制药工程具有重要的意义。　　随着高通量技术的快速进步，实验测定的蛋白质序列数量呈指数增长。但是采用传统生物实验的方法决定蛋白质序列的结构功能是相当的费时费力。因此，已知序列的蛋白质的数目同已知结构和功能的蛋白质的数目之间的鸿沟有加速扩大到趋势。采用计算的方法预测蛋白质的结构和功能可以及时有效地弥补传统生物实验的不足。　　本论文基于先进的机器学习技术，以及蛋白序列特征、预测的结构特征、进化特征、物理化学特征等，开发设计出了蛋白质序列分类和位点标记的计算方法，其性能优于当前已有的计算预测方法。特别地，本文重要的贡献在于：芋螺毒素分类预测，蛋白质信号肽分类和信号肽剪切位点识别，钙激活蛋白酶底物剪切位点识别，原核蛋白中类泛素化位点发现。论文主要研究内容和创新点如下：　　1.基于集成特征预测芋螺毒素超家族　　芋螺毒素是二硫化物丰富的无价的靶向通道肽，可以靶向神经元感受器。在治疗老年痴呆症，帕金森症，癫痫症方面，芋螺毒素作为有效的药物而展示出良好的应用前景。因此，为了进一步了解芋螺毒素的生物和药理功能，有必要首先对芋螺毒素的超家族进行计算预测分类。　　芋螺毒素蛋白质的超家族类别是由多种因素共同决定的，而且可抽象为典型的多类分类问题。基于此特点，本文提出了多特征集成预测的思想。首先创建了最新的基准数据集，然后提取芋螺毒素蛋白质氨基酸序列的物理化学属性特征，并进行小波变换之后采用随机森林进行降维，同时蛋白质序列氨基酸组成特征、蛋白质序列的进化特征、蛋白质序列的二级结构特征，随后构建了多个一对多的支持向量机模型,最终开发出了新颖的算法PredCSF算法,并将所开发出的PredCSF算法成功应用于芋螺毒素超家族分类预测。实验结果表明：在本文新构建的基准数据集上，PredCSF能获得90.65％的准确率。基于芋螺毒素蛋白序列的多种特征，本文提出的方法能对芋螺毒素超家族进行有效的预测分类，这将极大地促进治疗慢性疼痛，癫痫症等疾病的药物开发。　　2.基于扩散映射降维和子空间分类器判别芋螺毒素超家族　　为了进一步改善芋螺毒素超家族分类精度，并针对提取芋螺毒素多因素特征后产生的高维数据问题，同时考虑到芋螺毒素超家族分类本质是多类分类问题。本文提出了基于扩散映射进行数据降维，采用并改进本质多类分类器HKNN，最后整体成功地应用于对芋螺毒素超家族的分类预测。　　首先，芋螺毒素蛋白质序列的物理化学属性、进化信息、预测的二级结构信息和氨基酸组成等作为特征被提取出来；其次，为了获取数据几何描述的有效表示，把马尔可夫矩阵的特征函数看作是原数据集上的一个坐标系统，基于扩散映射进行数据降维；最后，考虑扩散空间中的局部密度信息，改进了局部超平面K近邻子空间分类器（HKNN），提出了dHKNN算法进行芋螺毒素超家族的预测分类。在基准数据集上，本文提出的dHKNN通过严格的留一法交叉验证测试，取得了91.90%的分类精度，显示出良好的应用前景。　　3.基于特异位置氨基酸倾向性和条件随机场预测蛋白质N-端信号肽　　无论是在原核生物还是真核生物中，绝大部分的分泌性蛋白和许多内在膜蛋白的靶向和易位，都必须依靠蛋白质的信号肽。在分子生物学中，一项重要的任务就是精确地预测识别蛋白质的信号肽。蛋白质的信号肽通常具有三个常见的结构域，中间一个是明显的疏水区域，而非信号肽则没有这种明显的特征。信号肽剪切位点是由复杂的序列模式所决定的。　　首先，针对蛋白质的信号肽具有疏水结构域特征，本文提出了一种新颖的判别评分方法，依靠集成疏水性比对和基于最高平均疏水位置的氨基酸倾向性，该方法成功地完成了信号肽和非信号肽的区分。结果显示，对于三种不同物种，即真核生物，革兰氏阴性菌，革兰氏阳性菌，在所构建的基准测试集上进行严格的留一法交叉测试，该方法分别能以96.3%,97.0%和97.2%的准确率区分三个物种的信号肽和非信号肽；其次，针对决定信号肽剪切位点的复杂氨基酸序列模式，本文把信号肽剪切位点的识别归结为典型的序列标记问题而不是常规地分类问题。本文创新性地提出用概率图模型来捕获这些氨基酸序列模式关系，构建条件随机场（CRF）模型成功地应用于信号肽剪切位点识别。实验结果证明：本文所提出的基于条件随机场（CRF）的方法能分别以80.8%,89.4%,和74.0%的精度识别三个物种的信号肽的剪切位点。　　4.基于条件随机场和多序列比对从跨膜螺旋中判别N-端信号肽　　尽管文献已经发表了很多从蛋白质序列出发预测信号肽的方法并构建了相应从在线预测工具，但是所有这些方法在区分蛋白质的信号肽和N-端跨膜螺旋都表现的能力较弱。如采用上面提到的信号肽预测方法进行全基因组识别研究，必然会得到大量来自N-端跨膜区域的假阳性预测结果。如何尽量降低这类假阳性预测是一个亟待解决的重要问题。　　在此研究中，本文提出基于条件随机场（CRF）算法并结合了多序列比对（Alignment）算法来整体完成蛋白质信号肽的识别，同时完成对信号肽和跨膜螺旋区域的区分。条件随机场（CRF）不仅能建模单氨基酸残基的信息，而且能建模不同距离的氨基酸残基对之间的关联信息。采用多序列比对作为补充，能充分利用数据集中的同源信息。实验结果表明：所提出的方法胜过了SignalP4.0。　　5.基于蛋白质序列信息使用条件随机场标记钙蛋白酶底物剪切位点　　依赖于Ca2+的半胱氨酸蛋白酶中的钙激活蛋白酶家族在许多生物过程中扮演至关重要的角色，而且同各种病理状态密切相关。被激活的钙蛋白酶可以有选择地在特定的剪切位点剪切相关的底物蛋白，使完整的底物蛋白被分成可以执行不同功能的多个片段。但是在现阶段，由于相关的传统生物实验非常费时，而且价格昂贵，导致人类对于钙激活蛋白酶的功能和他们的底物剪切机制的认知非常有限。计算预测的传统方式是，首先从整个蛋白质序列中分离出包含潜在剪切位点的短的肽段，然后采用两类分类器去预测识别。传统方式的问题在于，由于在训练数据中，负样本远远多于正样本，导致所构建的分类器存在显著地偏向。本质看来，识别钙蛋白酶底物剪切位点是一个典型的序列标记问题，而且决定剪切位点的因素是多方面的，同时还存在极端类别不平衡问题。　　针对这些问题，本文提出了提取多角度特征，并分别建立条件随机场（CRF）模型，采取结果融合的策略，总体开发出了LabCaS算法。所提出的LabCaS算法被成功地应用于钙蛋白酶底物剪切位点识别。在构建的基准数据集上，采用最严格的留一法测试，得到最优的AUC值是0.862。同时，为了加速后基因组时代的大规模数据分析的进程，本文基于LabCaS算法不但进行了大规模的钙激活蛋白酶底物剪切位点识别分析，而且还进行的具体的个案研究，为生物学家提供了丰富的计算分析结果。　　6.基于伪氨基酸组成和极端学习机识别原核蛋白质中的类泛素化位点　　在结核分枝杆菌中，为了进行选择性的蛋白质降解，原核的类泛素化蛋白依靠形成异构肽键而附着在底物蛋白的特异的赖氨酸残基K上。作为最重要的一类原核蛋白的翻译后修饰，原核中的类泛素化在调控广泛的生物过程扮演至关重要的角色。为了全面深入地了解这些原核类泛素化相关的生物过程，类泛素化位点的识别是首要的步骤。而传统的实验室试验方法识别类泛素化位点是相当费时费力的。类泛素化位点主要发生在赖氨酸K之上，而且与赖氨酸K附近的其他氨基酸残基有关。具体抽象出来，就是识别哪些包含赖氨酸K的肽段是类泛素化位点。　　为了及时有效地发现类泛素化位点，本文提出对包含赖氨酸K的肽段采取伪氨基酸组成（PseAAC）的编码策略，这样就能捕获肽段内的氨基酸之间的相关信息，采用极端学习机（ELM）构建预测模型，整体形成PupS算法。本文提出了一种基于伪氨基酸组成编码和极端学习机的新颖计算预测器PupS，在所构建的训练集上进行严格的留一法交叉验证测试，获得0.6483的AUC值，在所构建的独立测试集上获得0.6779的AUC值。结果证明：本文所提出的方法优于当前现存的方法，而且有较快的速度，适合进行全基因组的数据分析。

其他文献

无线传感器网络部署及定位技术研究

无线传感器网络是基于微机电、传感、片上系统、嵌入式、无线通信等技术的一种具有低功耗、低成本、自组织等特点的分布式信息感知、处理和传输系统，被广泛的应用于在军事、环

学位

无线传感器网络部署定位GSOMDS_MAPRSSI

基于混沌的数字图像加密算法研究与系统的优化设计

作为一种历史悠久的信息保密技术，密码技术已经通过了时间的考验，证明了其作为最有效的保护信息安全的手段的地位。由于混沌同密码学之间的天然联系及其结构上的相似性，本文主要

学位

混沌密码学安全性能分析不规则图形分时复用双精度

多目标进化算法在电梯群控中的应用

电梯在人们的生活中起着越来越重要的作用，它是沟通人们和高层建筑之间的桥梁。怎样使电梯得到最好的应用，同时保证人们的利益最大化，成为现代人所关注的目标。近年来，随着国内外

学位

电梯群控系统多目标进化算法交通流优化调度

模糊神经网络建模研究及输油管道监测系统设计

许多化工过程都是多变量非线性系统,pH值混合槽就具有典型的非线性。为了提高这类装置的控制性能,必须采用先进的控制技术,而首要前提是建立过程的动态数学模型。对于一个具

学位

模糊神经网络相关分析小波变换快速微分算法泄漏监测输油管道压力波

基于以太网的工业网络控制系统的可控性与稳定性的研究

该文介绍了工业计算机网络和工业网络控制系统的特性、应用和发展,论述了适应于实时控制环境下的以太网的结构特点和工作原理,提出了在工业网络控制系统中的传输延迟影响问题

学位

工业网络控制系统以太网可控性稳定性

移动终端设备软件的设计与实现

信息产业飞速发展，移动终端设备已成为各国发展的热点。本文主要是对移动终端设备软件——手机软件进行了研究与设计。论文在研究了手机体系结构的基础上，通过分析应用层软件整

学位

人机交互菜单调用指令屏显电池图标协议网络层

红外图像分析技术研究

红外图像处理技术在航空、航天等领域同样有重要意义,包括空空背景下的目标识别,或是空地复杂背景下的目标识别.该文对红外图像的预处理和分析进行了研究,对其中在图像增强、

学位

图像增强小目标识别机场跑道识别红外成像技术VC++6.0

图像分析与加密

对数字图像的分析是基于视频技术人工智能的有效手段。利用图像分析算法可以进行流水线的自动生产、交通系统自动管制、目标自动跟踪、导航以及地球资源探测等，在军事、工业和

学位

图像分析纹理图像纹理分割数据聚类图像加密遗传算法

智能决策技术及其应用研究

决策是人们为了达到某一目的而进行的有意识、有选择的行动。在一定的人力、设备、材料、技术、资金和时间因素的制约下，人们为了实现特定目标，而从多种可供选择的策略中作出决

学位

智能决策属性约简自适应遗传算法模糊DEA粗糙集理论C2R模型

基于LonWorks的智能小区管理系统的设计与实现

该文首先介绍了智能型住宅小区在中国的发展情况,并结合广州锦绣香江花园的小区智能化建设,应用颇有发展前景的现场总线LonWorks设计了智能小区一体化集成网络平台,然后探讨

学位

现场总线LonWorks智能小区家庭智能化安防系统自动抄表

蛋白质分子模式分析及识别研究

与本文相关的学术论文