论文部分内容阅读
蛋白质是一切生命活动的执行体,在各种生化反应、控制遗传、新陈代谢、抵抗疾病等方面起着举足轻重的作用。蛋白质组学研究已成为最重要的生命科学领域之一,它旨在阐明细胞或者组织内所有表达的蛋白,生物质谱技术在研究蛋白表达方面发挥着关键作用。由于质谱实验过程中的大量的物理化学噪声、同位素离子峰、离子碎裂模式可能出现的不规则碎片离子峰和离子缺失、数据库检索鉴定算法的缺陷等,使得能有效利用的质谱数据只占整个谱峰数据的很少一部分。因此,必须采取合适的数据的预处理方法和搜索策略及搜索鉴定结果的优化策略,以提高肽序列鉴定得分,从而提高蛋白鉴定的覆盖率和准确度。本文对质谱技术所产生的大规模实验数据和理论数据分别进行了预处理。首先,从理论上分别探讨了半小数规则、色谱保留时间、质谱峰强度、衍生离子簇信号、碎片离子的完整性以及多肽母离子质量等因素对蛋白质检索鉴定产生的影响,并提出了利用半小数规则和结合色谱保留时间信息的滤波策略,适当调整质谱峰强度,完整碎片信息等策略对理论质谱数据及局部实验数据进行了预处理,从微观层面验证策略的可行性。由于理论模型是依据理想状况而建立,而实验数据中掺杂了许多不可预测的影响因素,本文又运用这些策略对大规模实验数据进行了预处理,即从宏观角度上对以上策略进行了探讨。针对实验数据的差异性,我们又对这些策略加以组合和优化,通过讨论分析策略中的参数设置和策略的组合方式,得到最优的方案。比较结果发现,策略组合和优化的方案不仅能提高体系中真实蛋白的鉴定得分,而且从一定程度上鉴别了伪存蛋白。对简单二蛋白体系的相对鉴定准确率由33.33%提高到100%;对于复杂度极大的18蛋白体系的相对鉴定准确率由31.25%提高到了58.82%。