论文部分内容阅读
在后基因组时代,面对浩瀚的蛋白质序列信息,利用分子生物学实验的手段来预测蛋白质的类型不但费时费力,而且还可能遇到在实际中无法解决的困难,因此发展全新的生物信息学手段、探索高效可靠的计算机算法来研究蛋白质分类问题,进而预测其结构和功能具有重要而实际的意义。蛋白质序列的特征提取是蛋白质分类预测研究中最基本的问题也是决定分类效果的关键性问题。本文围绕蛋白质分类预测中的特征提取问题,提出了两种新型的蛋白质向量表示法,一种是基于电离常量的向量表示,一种是基于相对频率的向量表示。针对蛋白质分类研究中的三类基本问题—凋亡蛋白的亚细胞定位、外膜蛋白的预测和膜蛋白的分类研究问题,在大量的标准数据集上进行逐一实验和比较分析,多方面验证了新方法的有效性和可行性。本文主要有以下几个创新性成果:(1)细胞凋亡蛋自在生物体的生长发育和动态平衡中有着重要作用,这类蛋白对理解细胞程序化死亡具有重要意义。而细胞凋亡的亚细胞位置就是与其功能有密切关系的。因此用计算的于段米预测亚细胞的位置进而推测其功能具有实际而深远的意义。本文运用基于电离常量的蛋白质表示方法对其预测,在两个经典的数据集上得到了很好的效果。针对标准数据集CL317,在Jackknife检验总体分类精度达到91.8%,比目前已有的最好的分类模型提高了0.7个百分点。针对数据集ZD98,该模型的Jackknife检验总体分类精度达到94.9%,与目前最好的结果相差无几,比大部分的分类模型高出了2-10个百分点。(2)外膜蛋白由于其位于细菌的表面,从而对于疫苗和抗生素开发具有重要的研究价值。如何准确地将外膜蛋白从内膜蛋白和球蛋白等中识别出来对于确认外膜蛋白以及预测其二级、三级结构都是一项重要的研究任务。近年来人们已经提出若干从蛋白质序列出发预测外膜蛋白的方法。本文分别利用基于电离常量和基于相对频率的特征向量表示方法来对三个标准数据集分别预测,得到不错的分类效果。在数据集GS1319、Y970和P1087上,在Jackknife检验下最好的总体分类精度分别达到95.6%、96.1%和94.2%,结果表明本文提出的算法不亚于已有的预测方法,且新算更为简结、容易实现。(3)生物膜在生物研究领域中占据重要的地位,膜蛋白是生物膜功能的主要体现者。膜蛋白是一类结构独特的蛋白质,它镶嵌于膜脂的特异性使这一蛋白处于细胞与外界的交界处。膜蛋白是细胞执行各种功能的物质基础,且可以形成膜受体、载体、酶和抗原等。而预测膜蛋白的类型就可以预知它的功能。本文利用了基于电离常量和基于相对频率的蛋白质特征提取算法,对Chou和Shen创建的标准数据集CS3249实验,在Jackknife检验下总体预测精度分别为76.6%和71.8%。整体效果还是不错的,通过分析也可发现,对于大数据集,基于电离常量的算法略胜一筹。总体来说,这两种方法不仅能够提取蛋白质序列中蕴含的特征信息,有效改善分类模型的性能,而且还能大大降低计算复杂度,解决了传统氨基酸组成方法计算复杂、应用受限的现状。