论文部分内容阅读
人类基因组研究为我们提供了人类基因组图谱,但基因组图谱所能提供的基因组内蕴含的功能信息非常有限。为了系统阐释其编码基因的功能,以及其间的相互关系等,蛋白质组研究同益受到关注。 蛋白质组研究最根本的目标是建立生物体组织或器官的蛋白质组表达谱,以及随后系统地阐明表达谱的生物学意义。至今,蛋白质组的多种鉴定仪器已经能以较高的通量进行蛋白质鉴定,这些技术为大规模的蛋白质组表达谱研究奠定了基础。然而,与高速发展的仪器相比较,适合于大规模蛋白质组表达谱研究的数据处理、整合及分析方法明显滞后。虽然个别表达谱研究也建立了部分数据处理、整合的方法,但至今仍然没有一个系统、全面的数据处理、整合体系。蛋白质鉴定的可靠性依然是蛋白质质谱鉴定的难点;而且,在质谱产出数据和最终表达谱的系统生物学意义分析之间仍然存在着难以跨越的鸿沟。 为进一步提高蛋白质鉴定的可靠性,并填补蛋白质质谱鉴定和表达谱分析之间的鸿沟,为最终鉴定蛋白质的生物学分析提供便利,我们在对现有研究的充分调研以及对蛋白质组表达谱需求详细分析的基础上,建立了多种策略以加强鉴定结果的可靠性,并为随后的生物学分析提供了鉴定蛋白质的基本注释信息。 对于基因组序列已知的生物,数据库搜索策略是最经济、最有效的蛋白质鉴定疗法。为获得尽可能多高可靠性的鉴定结果,我们采用了分步搜索的策略:首先通过对一个质量相对较高、覆盖率较大的非冗余数据库的搜索完成基本鉴定;其次,为了充分利用质谱数据,我们建立了用其它数据库(包括蛋白质数据库和核酸数据库)进行分步搜索的策略,完成了质谱数据的补充鉴定和新蛋白质挖掘。 出于数据库搜索属于一种模式匹配的策略,所用的质谱鉴定结果往往不是特别精确,而且数据库中也存在大量的相似蛋白质或肽段,有时一个质谱鉴定结果可能匹配不止一个蛋白质或肽段。为了充分利用这些质谱数据,并准确地描述肽段和蛋白质鉴定的不精确性,我们建立了肽段和蛋白质鉴定的Group模型。 对于肽质最指纹谱的结果,针对其数据的特殊性,首先利用统计方法获得样