蛋白质亚细胞定位特征表达与分类算法研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:nimadeburang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学是后基因组时代的一个重要研究方向,它试图诠释蛋白质在细胞中扮演的角色,揭示细胞环境中蛋白质之间的相互作用和及其功能。确定蛋白质的亚细胞定位是实现蛋白质功能注释的重要一环,但生物实验确定蛋白质亚细胞定位周期长,成本高,迫切需要发展新的更有效的方法。本文基于现代统计模式识别理论与方法,开展了亚细胞定位预测中的特征表达、分类算法、多类分类策略以及不均衡数据处理等问题的研究。主要贡献如下:1.提出了矩描述子特征表达方法,并从预测正确率、支持向量、训练和测试时间几个方面对基于支持向量机的三种多类分类策略的分类性能进行了研究。该特征表达方法从统计学角度分析了氨基酸组成成分特征,引入了氨基酸次序和位置信息,以氨基酸坐标均值和坐标方差来表示蛋白质序列中氨基酸出现位置的期望值和离散程度。基于两种典型数据库进行了实验数据验证,结果表明,矩描述子特征能更有效地表达出蛋白质序列中各种氨基酸残基的位置分布信息。2.提出了氨基酸组成分布特征表达方法,给出了不均衡性衡量指标,研究了不均衡数据集的不均衡性对支持向量机分类的影响,并提出了一种基于加权惩罚系数的训练方法。该特征表达方法将蛋白质序列平均分成多段,分别求取每一段子序列的氨基酸组成成分,不仅包含了所有子序列的氨基酸含量而且能够体现了子序列在空间结构上的相互作用关系。实验数据验证结果表明,(1)氨基酸组成成分特征体现了局部的子序列信息之和大于整体序列信息,能更有效地表达出蛋白质子序列之间的相互关系;(2)基于加权惩罚系数的训练方法能够来减轻数据的不均衡性给分类带来的负面影响。3.针对蛋白质物理化学信号的非平稳性,提出了基于氨基酸残基指数的多尺度能量特征表达方法。该特征表达方法利用氨基酸残基指数将蛋白质符号序列映射成数值信号,使用基于多分辨率分析思想的小波变换,将信号进行Mallat塔式分解,从而求解出该信号在多个尺度上的均方根能量,并通过向量的形式来表达亚细胞定位的特征信息。实验数据验证结果表明,本方法能更有效地表达出蛋白质物理化学信号的特性,并具有更小的计算复杂度。4.针对多种亚细胞定位特征之间的不一致性和特征维数高等问题,提出了一种基于多分类器系统的蛋白质亚细胞定位预测方法。该方法引入多分类器系统对多种特征进行聚合,融合了互补模式信息,降低单个分类器的不确定性,降低了高维特征带来的分类器模型构造难度,并减小了相应的计算负担。实验结果表明,与单个分类器相比,分类系统的预测能力得到了提高和改进;与其他方法相比,本方法更为有效和鲁棒。
其他文献
松材线虫病被称为松树的“癌症”,松树一旦染病,无法治愈,其发生给林业和生态建设带来巨大的危害。安徽省首次发现松材线虫病在马鞍山市。本文以马鞍山市博望区为例,介绍该区
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
三维模型的变形编辑和弹性模拟在几何造型、计算机动画、影视游戏以及虚拟现实这些领域都有广泛的应用,是图形学中非常重要的课题。算法的速度快慢、控制手段的多少、以及变形
知识表示、知识推理和知识应用是人工智能的核心问题。目前,基于非经典逻辑的自动推理系统由于它加速了人工智能的发展而越来越引起人们的广泛重视。为了处理不同信息的推理,人
期刊
在场景中自动寻找人脸是一个困难但重要的问题,本论文研究了人脸特征的验证与提取方法,用了四种方案来定位人脸。本文还对基于模式聚类的图象恢复和虚拟驾驶系统规则的Petri
近年来,蓬勃发展的嵌入式计算技术已经渗透到人类生产生活的每个角落,成为计算机科学的一个重要研究、应用领域。传统的设计方法难以满足当前大规模复杂嵌入式系统设计的要求,研
数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,也是“信息高速公路”的重要支撑技术。多种技术与数据库技术结合是当前数据库研究发展的一个重要趋势。医学信
目的:探讨温阳活血方对慢性心力衰竭大鼠心肌纤维化的影响。方法:利用肾上腹主动脉缩窄法制作慢性心力衰竭大鼠模型。将30只雄性wistar大鼠随机分为假手术组、模型组、温阳活
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield