蓝藻Synechococcus sp.PCC7002组学数据的分析以及数据库建设

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:luluzhangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蓝藻是一类非常古老的原核生物,能够进行放氧光合作用,在地球的碳循环和氮循环中占据非常重要的地位,在地球大气成分的改变过程中发挥了重要作用。光合作用是植物和其他生物将光能转化为化学能的过程,是绝大部分生命活动的能量来源。蓝藻细胞结构简单,生长速度快,遗传背景清楚,是研究光合作用的模式生物。  Synechococcus sp.PCC7002是一种单细胞海洋蓝藻,其极快的生长速度和对极高光强的耐受性使其成为研究光合作用的一种重要的模式蓝藻。随着高通量测序技术和质谱技术的发展,针对Synechococcus sp.PCC7002多种组学的研究逐渐开展。Synechococcus sp.PCC7002的全基因组测序、组装和注释工作在2008年完成,随之而来的是一系列转录组学和蛋白质组学研究成果的发布。大量组学数据的积累使得由对单个基因的功能研究转向对整个生命系统各个过程的整体研究成为可能。整合多组学的数据能够实现对生命系统的全面了解,也是组学研究的必然趋势。对已发表的Synechococcus sp.PCC7002组学的研究工作进行总结,可以发现目前在整合多组学数据分析方面存在着一些障碍:转录组数据和蛋白质组数据有很大的不一致性、将近40%的蛋白质是假想蛋白、蛋白质翻译后修饰的研究很少以及缺乏一个组学数据存放、展示和在线分析的综合平台。  本研究利用链特异性转录组测序技术,全面分析Synechococcussp.PCC7002在正常光和高光条件下基因和antisense转录本表达模式的不同,并与已发表的定量蛋白质组学数据比较,揭示antisense转录本在转录和翻译过程中的调控作用。通过蛋白质基因组学的手段,对Synechococcus sp.PCC7002的基因组进行重注释并分析全局的蛋白质翻译后修饰现象。通过收集和整合已发表的各种组学数据,进行综合性组学数据库和在线分析平台的建设。以下为本研究的主要成果和结论:  (1)我们利用链特异性转录组测序技术对Synechococcus sp.PCC7002在两个不同光照条件的5个RNA样品进行测序,对差异表达的基因和antisense转录本进行分析,鉴定了612个(Fold-Change≥2或者≤-2且P-value≤0.05)差异表达的基因和341个差异表达的antisense转录本,其中311个基因和209个antisense转录本的表达量上调,301个基因和132个antisense转录本的表达量下调。对比基因和其对应的antisense转录本之间上下调的规律,发现本身上调而antisense转录本下调的基因有17个,本身下调而antisense转录本上调的基因有20个,说明在Synechococcus sp.PCC7002中,antisense转录木可能对基因的转录有调控作用。为了查明antisense转录本是否对翻译过程也有调控作用,我们获取了已发表的Synechococcus sp.PCC7002低光和高光的定量蛋白质组数据,并与我们的转录组数据进行比较,发现在mRNA水平和蛋白质水平共上调的基因只有12个,共下调的8个,表现出很强的不一致性;加入antisense转录本进行分析发现,mRNA水平不变,antisense转录本上调,蛋白质水平上调的基因有2个:mRNA水平不变,antisense转录本下调,蛋白质水平下调的基因有1个,这个结果暗示在Synechococcus sp.PCC7002中antisense转录本可能对基因的翻译也有调控作用。  (2)蛋白质基因组学是用质谱得到蛋白质组数据来对基因组的注释进行改善和促进的研究。本研究建立了一个原核生物蛋白质基因组学分析和全局翻译后修饰分析的工作流程,并以Synechococcus sp.PCC7002作为测试物种。  为了提高蛋白质组数据对基因组的覆盖度,我们用八种不同的培养条件处理Synechococcus sp.PCC7002细胞,用两种不同的蛋白分离方法提取蛋白质进行质谱分析,得到了55,862条高准确度的非冗余肽段。将这些肽段对Synechococcus sp.PCC7002已注释的蛋白数据库进行搜库分析,鉴定到了所有3,186个蛋白中的2,938个,表明我们的数据对蛋白编码区域的覆盖度是非常高的。Synechococcus sp.PCC7002有1210(38%)个蛋白被注释为假想蛋白,我们的肽段数据鉴定了其中的918个。  我们将所有鉴定到的肽段对Synechococcus sp.PCC7002六码框数据库进行了搜库分析,将所有匹配到六码框的肽段与匹配到Synechococcussp.PCC7002所有注释蛋白的肽段进行比较,发现有2,778个肽段没有匹配到任何一个已注释的蛋白,暗示着基因组注释信息并不完善。因此我们用两个不同的基因预测算法这些肽段匹配到的基因组区域进行基因预测,最后鉴定到了118个新的基因并修正了38个已注释的基因编码区域,在鉴定到的新基因中,有19个基因可能使用了非常规的翻译起始密码子ATA或ATT。  我们还对蛋白质基因组学数据在转录水平进行了验证。我们使用同样的培养条件处理Synechococcus sp.PCC7002细胞,提取RNA,进行链特异性转录组测序,将得到的mRNA reads与基因组进行关联分析,计算所有已注释的基因以及蛋白质组鉴定到的新基因的RPKM值,结果表明,在RPKM≥2的标准下,所有这些基因在转录水平上都得到了验证。  我们用MODa软件和MaxQuant软件对质谱鉴定到的所有肽段进行了翻译后修饰分析,结果在2,230个蛋白中鉴定到了23种不同的翻译后修饰类型。通过翻译后修饰类型与蛋白功能的关联分析,我们发现在一些特定的功能类群中某些修饰数量明显比较高,例如在光合作用和呼吸过程这一功能类群的蛋白中,甲基化、过硫化、法尼基化和羟甲基化修饰的现象非常突出,表明这些翻译后修饰类型深入参与了Synechococcus sp.PCC7002光合作用过程。  最后我们把这部分工作中产生的所有组学数据进行归类和整合,并利用基因组浏览器软件Abrowse实现了数据的可视化和在线获取功能,使研究人员可以通过这个平台快速地获得他们感兴趣的数据。  (3)自从Synechococcus sp.PCC7002的基因组公布以来,一系列的转录组和蛋白组的工作陆续有报道,对于Synechococcus sp.PCC7002的研究者来说,只有通过花费大量时间进行文献检索和阅读才能获取和了解这些组学数据,所以一个整合了所有已发表的各种组学数据的数据库亟待建立,这样的数据库可以对实验生物学家提供很大的便利。  通过深度的文献搜索,我们收集到了Synechococcus sp.PCC7002基因组序列和注释信息、29组转录组数据和1组磷酸化蛋白质组数据。以这些数据为基础,我们建立了一个有良好用户界面、详细使用说明的组学数据库CyanOmics。用户可以使用CyanOmics来快速浏览所有的组学数据、获取差异表达基因和磷酸化蛋白信息、在线分析数据以及下载原始数据、分析结果和分析程序。  本研究对Synechococcus sp.PCC7002各种组学的数据进行了深入的挖掘和分析,揭示了antisense转录本在转录和翻译水平的调控作用、修正并提升了基因组的注释、发现了全局范围内的翻译后修饰现象并最终建设了一个综合的组学数据库来为研究者提供组学数据的获取和分析服务,为Synechococcus sp.PCC7002的研究提供了大量的组学数据和一个开放的研究平台。
其他文献
自1981年确认首例艾滋病以来,艾滋病已经成为威胁人类健康和发展的重大传染病之一。疫苗一直被认为是人类最终能战胜艾滋病的最根本、最有效的科技手段之一。选择合适的抗原作
该论文介绍了MC器件模拟的基本原理,包括半导体中电子的输运性质,电子在半导体中的散射机制和能带结构,半导体中的电子在电场飞行的处理方法.在MC器件模拟中,采用自洽的方式
该文通过对心电信号(ECG)的特征研究,及BP神经网络结构与学习特性的研究,给出了用BP神经网络对心电信号的模式识别的批训练(学习)方法.人们首先采用稳态-非稳态滤波器来处理
免疫球蛋白(Immunoglobulin,Ig)是脊椎动物中最为关键的一类免疫效应分子,在宿主的适应性免疫应答过程中发挥重要作用。Ig由重(H)链和轻(L)链组成,分为跨膜和分泌两种形式。在B
该论文围绕啁啾光纤光栅的制作和在高速光通信系统色散补偿方面的应用主要进行了如下工作:利用光纤倾斜法和二次曝光法制作了可用于色散补偿的啁啾光纤光栅.在啁啾光栅制作中
该文从理论上分析了(适当)随机馈相法改善相控阵天线波瓣指向偏差的机理,并推导出理论公式.该文以一个16×16单元相控阵的差波瓣指向为例,用所得到的理论公式计算相控阵天线
期刊
该论文的工作以实用化为目标,主要定位于ATM层流量控制.1、回顾了接入网的发展和APON系统的标准化,APON系统提供的业务,协议分层结构和主要技术.2、在参考ITU-TI371建议和ATM
该论文的主要工作是搜索精确、快速的广角束传播方法(WBPW),突破傍轴BPM的局限,进一步拓宽BPM的适用范围.目的是为该课题组前期开发的通用光波导器件BPM模拟软件-OEDCAD的更