论文部分内容阅读
人类基因组计划的实施使得蛋白质的一级结构数据与日俱增.但是,人们对蛋白质的三级结构和功能的认识却远远落后于一级结构的积累.后基因组时代迫切需要人们寻找有效的理论方法来从蛋白质一级结构预测三级结构和功能,以便于基础研究或在医学、农业及工业生产中的应用.在这样的前提下,文中提出了一种有效地从氨基酸序列来提取信息,提高预测准确率的新方法.该方法基于多元统计中的逐步判别分析,在每次循环中选取一些相对较为重要的肽,用来产生新的更长的肽.最后用选取的氨基酸和肽进行判别,结果比已有方法有很大改善.文中主要工作如下:1、对三个不同的结构类数据库进行预测,准确率比以往方法高15到20个百分点.2、用从较大的数据库(PDB40-b)中提取出的参数来预测较小的库(PDB40-j),超过80﹪的序列被准确地判别出其结构类型,准确率仍比其它方法高.3、对于其中两个数据库,随机地从中取一部分序列作为检验集,将剩余的序列作为训练集,用从原数据库中选取的变量进行预测.反复进行100次,预测结果都比较高,和1中结论没有很大差距,显示该方法的有效性.4、用从较大数据库中提取的变量进行典型判别,寻找与组有最大可能多重相关的变量的线性组合,得到三个典型变量.用它们作三维描点图,各类数据被很好的区分.5、用该方法对蛋白质亚细胞位置进行预测,也得到很好的预测结果.且所选变量的生物意义比较明显.