论文部分内容阅读
蛋白质组学是后基因组时代的一个重要研究方向,它试图诠释蛋白质在细胞中扮演的角色,揭示细胞环境中蛋白质之间的相互作用和及其功能。确定蛋白质的亚细胞定位是实现蛋白质功能注释的重要一环,但生物实验确定蛋白质亚细胞定位周期长,成本高,迫切需要发展新的更有效的方法。本文基于现代统计模式识别理论与方法,开展了亚细胞定位预测中的特征表达、分类算法、多类分类策略以及不均衡数据处理等问题的研究。主要贡献如下:1.提出了矩描述子特征表达方法,并从预测正确率、支持向量、训练和测试时间几个方面对基于支持向量机的三种多类分类策略的分类性能进行了研究。该特征表达方法从统计学角度分析了氨基酸组成成分特征,引入了氨基酸次序和位置信息,以氨基酸坐标均值和坐标方差来表示蛋白质序列中氨基酸出现位置的期望值和离散程度。基于两种典型数据库进行了实验数据验证,结果表明,矩描述子特征能更有效地表达出蛋白质序列中各种氨基酸残基的位置分布信息。2.提出了氨基酸组成分布特征表达方法,给出了不均衡性衡量指标,研究了不均衡数据集的不均衡性对支持向量机分类的影响,并提出了一种基于加权惩罚系数的训练方法。该特征表达方法将蛋白质序列平均分成多段,分别求取每一段子序列的氨基酸组成成分,不仅包含了所有子序列的氨基酸含量而且能够体现了子序列在空间结构上的相互作用关系。实验数据验证结果表明,(1)氨基酸组成成分特征体现了局部的子序列信息之和大于整体序列信息,能更有效地表达出蛋白质子序列之间的相互关系;(2)基于加权惩罚系数的训练方法能够来减轻数据的不均衡性给分类带来的负面影响。3.针对蛋白质物理化学信号的非平稳性,提出了基于氨基酸残基指数的多尺度能量特征表达方法。该特征表达方法利用氨基酸残基指数将蛋白质符号序列映射成数值信号,使用基于多分辨率分析思想的小波变换,将信号进行Mallat塔式分解,从而求解出该信号在多个尺度上的均方根能量,并通过向量的形式来表达亚细胞定位的特征信息。实验数据验证结果表明,本方法能更有效地表达出蛋白质物理化学信号的特性,并具有更小的计算复杂度。4.针对多种亚细胞定位特征之间的不一致性和特征维数高等问题,提出了一种基于多分类器系统的蛋白质亚细胞定位预测方法。该方法引入多分类器系统对多种特征进行聚合,融合了互补模式信息,降低单个分类器的不确定性,降低了高维特征带来的分类器模型构造难度,并减小了相应的计算负担。实验结果表明,与单个分类器相比,分类系统的预测能力得到了提高和改进;与其他方法相比,本方法更为有效和鲁棒。