基于支持向量机的蛋白质功能预测新方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:xpz_peng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类进入后基因组时代,基因功能的注释已成为科学研究的焦点问题。依据中心法则,记录遗传信息的基因必须翻译成蛋白质才能执行其功能,因而蛋白质功能的研究变得至关重要。虽然可以通过实验方法确定蛋白质的功能,但是实验方法费时、费力且费用昂贵,无法满足在全基因组范围内对蛋白质功能进行注释的需要。因此,发展可靠、经济和高通量的蛋白质功能预测方法成为一项迫切任务。本文根据蛋白质功能预测的研究现状,基于机器学习方法支持向量机,从氨基酸序列出发,设计了一系列蛋白质序列的特征表达新编码方法,对蛋白质的功能进行预测研究,主要工作概括如下:1.建立了线粒体和叶绿体亚结构预测的新方法。从氨基酸的极性和疏水性出发,基于离散小波变换特征提取方法,提出了一种新的伪氨基酸成分特征编码方法,成功应用于线粒体和叶绿体蛋白质的区分。在此基础上进一步预测了线粒体和叶绿体亚结构,各类亚结构的预测准确率比现有方法提高了3.7%~22.1%,尤其是线粒体外膜和叶绿体内囊体腔的预测结果有极大改进。这些结果表明离散小波变换不仅可以消除氨基酸序列中的噪声成分干扰,而且可以有效地提取整条蛋白序列的次序信息。此外,对线粒体和叶绿体两种蛋白质物理化学性质进行了讨论,发现线粒体蛋白质中极性特征更明显,而叶绿体蛋白质中疏水特征更显著。2.构建了蛋白质精氨酸和赖氨酸甲基化修饰位点预测模型PMeS。提出了一种新的位置权重氨基酸成分去反映修饰位点附近残基的位置信息,并将其与氨基酸属性编码和溶剂可及表面面积融合去捕获甲基化位点的特征信息。10-倍交叉验证结果显示,PMeS的特征编码方法对甲基化状态的识别十分有效。同时,对特征的选择、窗口长度、正负样本比例和模型的稳定性进行了深入探讨。不同交叉验证和独立测试的结果表明,PMeS模型稳定可靠且明显优于其它预测工具。基于PMeS模型,我们构建了精氨酸和赖氨酸甲基化修饰位点的在线预测服务网站(http://bioinfo.ncu.edu.cn/inquiries_PMeS.aspx)。3.建立了同时预测完整蛋白上赖氨酸残基的甲基化和乙酰化修饰位点的新方法PLMLA。该方法通过属性分组重量编码、位置权重氨基酸成分和二级结构分别提取修饰位点附近的物理化学属性、序列信息和结构特征。对甲基赖氨酸、乙酰赖氨酸和非甲基化与非乙酰化赖氨酸在残基的位置特异属性、物理化学性质和二级结构方面的特征差异进行了详细分析。基于不同训练特征的预测结果揭示,具有多特征融合的预测模型能充分利用不同特征之间的互补信息去改进模型的预测性能。基于独立测试与其它方法进行了比较,PLMLA对甲基赖氨酸的预测准确率比BPB-PPMS和MASA的分别高30.3%和37.88%;对乙酰赖氨酸的预测准确率比LysAcet和N-Ace的相应结果分别高33.33%和36.11%。这充分表明PLMLA方法极大地改进了甲基赖氨酸和乙酰赖氨酸的预测研究现状,是识别赖氨酸残基甲基化和乙酰化修饰的有效工具。最后,我们构建了基于氨基酸序列即可对完整蛋白质序列上赖氨酸的甲基化和乙酰化修饰位点同时进行预测分析的在线服务平台(http://bioinfo.ncu.edu.cn/inquiries_PLMLA.aspx)。4.开发了酪氨酸硝基化位点预测的新方法。采用氨基酸残基信息熵和二肽关联熵优化窗口,结合氨基酸的物理化学性质和结构特征构建了蛋白质酪氨酸硝基化位点的预测模型。对信息熵优化窗口和传统连续窗口进行了初步探讨,结果显示信息熵窗口能够有效捕获酪氨酸硝基化肽段上的重要位点,克服短肽序列易丢失信息而单纯增大肽段长度又会引入冗余信息的矛盾,并有效提高模型的预测性能。特征分析揭示酪氨酸残基的局部静电环境、邻近的进化保守位点和长程位点对其硝基化均产生重要影响。本文的分析结果有助于帮助理解酪氨酸的硝基化机制,并对进一步的实验研究提供重要的参考价值。
其他文献
<正>2015年已至年中,但人们仍然无法忘记这个羊年春节长假,手机上抢红包那一道显眼的风景:在家人团圆、亲友聚会等场合,总有人低着头紧握手机、紧盯屏幕,频频滑动指尖——抢
手性是自然界和生物体的基本属性。分子水平和超分子水平的手性与化学、物理学、生物学、材料科学等密切相关。近年来,配位作用导向的超分子自组装为合成大量结构新颖和功能
目的以奶品瓦楞纸箱的自锁底结构为研究对象,研究不同自锁底结构的力学特性。方法以奶品礼箱为对象,设计6种不同自锁底结构、3种不同尺寸的18种瓦楞纸箱,根据国家标准,分别进
从华兹华斯以来,记忆与个人主义的关联一直越系越紧,从文学蔓延及历史。记忆只有从个体道德超越,跃升到真正伦理的层面,才有可能恢复它真正的活力与意义。记忆的平权意味着不
本文从企业经营者报酬确定的角度出发 ,对企业经营业绩评价的缺陷作了具体的分析 ,即“多评一块”、“少评一块”及本身的不准确 ,指出应当在企业经营业绩评价的基础上进一步
京津冀协同发展国家战略框架中,亟待构建生态协同发展的利益机制与模式,解决京津冀生态协同发展面临的困境。跨域治理理论倡导的去科层制的扁平网络化协同治理关系,适用于解
保护金融消费者合法权益是第三方支付促进金融创新和实现金融公平的前提条件。第三方支付机构通过直连商业银行和进行自我结算的方式支配支付交易资金流和数据流,创造出以客
"中国近现代史纲要"课中爱国主义教育存在的问题:对爱国主义缺少理性思考;难以辩证地看待爱国主义与国际主义的关系;对学生思想状况缺少持续性的调查;缺少对网络观点的直接回
近些年来,大气污染,环境污染和严重雾霾天气的频发,以煤为主的能源结构是环境污染的主要原因,凸显出我国以煤为主的能源结构和高投入、高消耗、高排放的工业发展道路的不持续
我国理论界关于不动产冒名处分的法律适用问题一直无法形成一个统一的观点和理论,使得司法机关在相关案件的处理方面困难重重。基于此,文章选取不动产冒名处分的法律适用为研究课题,截取其中争议最大的适用善意取得制度或适用无权代理制度两种观点进行对比分析。具体而言,文章主要分为四部分,第一部分是对于不动产冒名处分的概述,包含冒名处分的定义、分类以及相关的争议学说。第二部分和第三部分分别介绍了不动产冒名处分与善