论文部分内容阅读
蛋白质的亚细胞定位与蛋白质的结构和功能密切相关,本文基于蛋白质的结构与其功能的联系,从蛋白质的氨基酸序列出发,提出了预测蛋白质亚细胞定位的离散量、离散增量和离散有限系数算法。通过选取不同信息参数作为离散源参数,利用该算法预测了蛋白质的亚细胞定位。 全文共分三章: 第一章为数据库分析。对SWISS-PROT(2002)数据库中经过筛选得到的12类亚细胞序列的氨基酸单个出现的概率、紧邻出现的概率进行统计和比较,结果表明,除个别类之间氨基酸单个出现的概率、紧邻出现的概率比较接近外,大多数类之间氨基酸单个出现的概率、紧邻出现的概率是有明显区别的。 第二章为理论方法。针对统计结果的特点和离散量反映系统整体信息的性质,将离散量、离散增量和离散有限系数等概念应用于预测蛋白质的亚细胞定位,对数据作标准化变换后用离散量理论方法预测蛋白质亚细胞定位,最后给出预测结果优劣的评价公式。 第三章为蛋白质亚细胞定位的预测。主要包括两部分内容。首先是利用离散有限系数对4类亚细胞定位的预测。以20种氨基酸出现的个数为参数构成离散源,对参数进行标准化变换后,分别利用Self_consistenCy和Jackknife方法对4类主要亚细胞即细胞外(Extracell),细胞质(CytoPlasm),细胞核(Nueleus)和细胞膜(Plasma membrane)共1824个蛋白进行理论预测,两种预测方法均获得了较高的预测成功率。然后是利用离散增量的方法对12类亚细胞的预测。分别以20种氨基酸出现的个数、400种氨基酸二联体出现的个数及两者出现个数之和为参数构成离散源,对参数进行标准化变换后,分别利用Self_eonsistency和Jaekknife方法对12类亚细胞即叶绿体(ehloroplast),细胞质(eytoplasm),细胞骨架(eytoskeleton),内质网(endoplasmicretieulum),细胞外(extraeell),高尔基体(90191 apparatus),溶酶体(lysosome),线粒体(mitoehondria),细胞核(nueleus),过氧化物酶体 (peroxisome),质膜(plasma membrane),液泡(vaeu。le)分别进行了理论预测。结果表明,以400种氨基酸二联体出现的个数为参数构成离散源预测成功率最高。在此基础上,把离散增量的二次组合作为预测指标进行了预测,所得结果有了进一步改善,最后对结果进行了讨论。