论文部分内容阅读
在后基因组时代,蛋白质组已经成为研究热点之一。蛋白质组学是研究细胞或组织内所有表达蛋白质的一门新兴学科,它使得从整体上解释蛋白质组的功能成为可能。蛋白质组研究的三大基本支持技术分别是双向电泳、质谱技术以及计算机图像分析与大规模数据处理。其中,以质谱技术为基础的蛋白质鉴定方法,由于其灵敏度高、速度快、易实现自动化,已经被广泛运用于蛋白质组研究,为实现在蛋白质组水平上进行高通量的蛋白质鉴定奠定基础。利用生物质谱鉴定蛋白质的过程分为实验和计算两个步骤。蛋白质样品经实验步骤获得质量图谱,经计算步骤进行图谱解析。现有的图谱解析方法包括序列库搜索、图谱库搜索、从头测序(de novo sequencing)以及从头测序结合容错性搜索的方法。其中,蛋白质序列库搜索法是常用的图谱解析方法,一些经典的搜库软件,包括Mascot、SEQUEST、X!Tandem等已得到广泛应用。序列库搜索法的基本过程是将数据库中候选蛋白质序列理论酶切为肽段,模拟产生理论酶切肽段的碎裂图谱进行鉴定;将理论图谱与实验图谱进行匹配,并根据图谱相似性打分,经特定的肽段质量控制方法获得高可信的肽段鉴定结果;根据肽段与蛋白质氨基酸序列的对应关系推导出蛋白质,实现蛋白质的鉴定。
“人类肝脏蛋白质组计划(Human Liver Proteome Project,HLPP)”是国际上第一个人类组织/器官的蛋白质组计划,也是我国科学家领导的第一项重大国际协作计划。它的发起与实施旨在阐明肝脏蛋白质在生理或病理条件下的变化机制,提高肝病的治疗和预防水平,使我国在肝炎、肝癌为代表的重大疾病的诊断、防治与新药研制领域取得突破性进展。HLPP的科学目标是完成“两谱”和“两图”。其中,“两谱”指肝脏蛋白质表达谱和蛋白质修饰谱。目前,人类胎肝、法国成人肝脏、中国成人肝脏以及小鼠肝脏细胞器和大鼠肝脏分泌系统蛋白质表达谱的分析已取得了阶段性的进展,人类肝脏细胞及细胞器的蛋白质表达谱和不同肝脏疾病蛋白质组的研究正在进行中。面对海量的蛋白质组数据,需要研发相应的信息技术平台,以对数据进行有效的存储、管理、注释及展示,这对生物信息学的支撑能力提出了较高的要求。为满足这一需要,我们设计并开发了人类肝脏蛋白质组数据库应用系统Liverbase。作为目前最大、最完整的开放式肝脏蛋白质组数据库应用系统,Liverbase整合了来自于中国人类肝脏蛋白质组计划(Chinese Human Liver Proteome Project,简称CNHLPP)中国成人肝样品的数据,主要包括肝脏蛋白质组数据和转录组数据,为人类肝脏研究提供高质量的公共数据资源。由于肝脏功能的重要性及肝病防诊治的重大意义,肝脏蛋白质组是国内学术领域研究的重点对象之一。本实验室在“十五”期间建立多个肝脏数据库的基础上,收集肝脏蛋白质组实验中产出的表达谱、蛋白质定位和蛋白质相互作用数据,构建肝脏蛋白质组数据总库。其中,中国肝脏蛋白质表达谱数据库(Databaseof Human Liver Protein Expression Profile,简称DBLEP)是总库中的重要组成部分。与DBLEP相比,Liverbase拥有更全面的蛋白质功能注释信息,是目前唯一为每个实验鉴定的肝脏蛋白质提供了全面的注释信息、整合了mRNA/蛋白质丰度的人类肝脏蛋白质组数据库应用系统。Liverbase的长期目标是为人类肝脏蛋白质以及肝疾病中的基因提供全面的功能注释,尽量满足肝脏相关研究领域的需求。
在相继鉴定的法国成人肝脏及中国成人肝脏的蛋白质表达数据集中,已包括了成千上万高置信度的蛋白质。为进一步分析和有效管理这些数据,需对其进行处理。本课题主要致力于对实验产出的高通量蛋白质表达谱数据进行处理、管理、分析及利用。在大型蛋白质组计划的蛋白质鉴定过程中,由于生物样品和实验过程的复杂性、质谱仪器和搜索算法的多样性,导致了质谱数据的多样性。数据多样性主要体现在数据格式多、种类多、来源多、数据量大及数据间关系复杂等方面。面对海量蛋白质组数据,仅靠人工处理,不仅费时耗力且无法保证数据质量,所以需要研发相应的信息技术平台和分析算法,以对数据进行有效存储、注释、分析、展示及挖掘。目前,国际上常用的质谱数据分析工具,如TPP(Trans-Proteomic Pipeline)、CellMapBase等,虽然已涵盖较全面的功能,但均有一定针对性,并不适用于本实验室质谱数据的处理。在此基础上我们提出并构建了大规模质谱数据处理平台MSDataCruiser,以实现模块化、一体化的数据处理流程,使质谱数据处理既方便又省时。同时,整合现有的质谱数据处理和分析工具,最终将数据通过人类肝脏蛋白质表达谱数据库(DBLEP)展示给用户,供学术界及产业界使用。
由北京蛋白质组研究中心(Beijing Proteome Research Center,BPRC)等国内7个实验室产出的人和小鼠肝脏细胞器蛋白质表达谱数据,根据不同技术路线共分为51批。通过本实验室开发的Java程序以及本地化工具,本工作首先对51批数据进行处理,包括LCQ和LTQ离子阱质谱平台产出数据的格式转换、SEQUEST和Mascot鉴定结果处理、蛋白质列表文件获取以及鉴定蛋白质注释信息的生成等。最后将生成的结果导入人肝脏蛋白质表达谱数据库的标准文件进行整合,并对数据库中的资源进行发布和共享。为支持用户对新入库数据以及表达谱数据库中所有的数据进行蛋白质序列相似性比对,本文在DBLEP中引入了NCBI的BLAST序列比对工具,实现新入库数据集FASTA文件制作和库文件生成,并对表达谱数据库BLAST服务器进行数据添加及修改。目前,该服务支持用户对新数据集,包括中国成人肝脏蛋白质表达谱数据、人和小鼠肝脏细胞器蛋白质表达谱数据以及数据库中所有数据集进行蛋白质序列相似性比对。为实现模块化、一体化和自动化的数据处理流程,本实验构建了质谱数据处理平台MSDataCruiser。本文第二章对MSDataCruiser开发环境以及每个功能模块的设计与实现做了详细说明。目前,MSDataCruiser平台的核心功能包括LCQ和LTQ数据的格式转换、SEQUEST PFF、Mascot PFF、Mascot PMF Combine鉴定结果的处理、蛋白质列表文件的实现和蛋白质注释信息的生成。同时提供了疑难问题解答以及部分软件下载等功能。本文最后对Liverbase人类肝脏蛋白质组数据库应用系统的开发环境、实验数据集以及功能做了详细说明。
MSDataCruiser采用MyEclipse6.6软件开发环境。MSDataCruiser采用“JSP+JavaBean+Servlet”技术作为Web标识层生成动态网页,该技术遵循视图控制器模式。Web容器采用轻便、通用的Apache Tomat5.5。MSDataCruiser质谱数据处理平台不仅适用于本实验室产出的表达谱数据的处理,同时适用于以质谱为平台产出的所有数据。它具有友好的用户界面、模块化的结构、易于操作及实用性强等特点,为蛋白质组数据处理及展示提供了有效的平台和工具。