人类蛋白共进化网络研究与交互式转录组注释系统构建

来源 :中国科学院大学(中国科学院北京基因组研究所) | 被引量 : 1次 | 上传用户:frenta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,基因组学、转录组学和蛋白质组学等组学研究都进入了快速发展时期。而DNA测序技术的革新和进步,导致了生物信息数据的爆炸式增长。当前生物信息学研究的重要命题,就是如何对这些组学数据进行合理存储、整理、挖掘并高效使用。本论文的研究将围绕蛋白质组学和转录组学中的两个具体问题展开,以生物信息学数据挖掘方法和数据管理模式来解决这两个问题。蛋白质共进化网络是蛋白质组学研究的一个重要方向,也是揭示蛋白质相互作用关系的重要方法。当前蛋白质相互作用的研究手段主要包括实验方法和生物信息学方法两大类,与生物实验方法相比,生物信息学方法更加省时有效,更适合组学数据的深入挖掘。近年来,已有众多物种完成全基因组测序,这为研究人的蛋白质共进化网络提供了前提和基础。基于此,本课题主要进行人类蛋白质共进化网络的构建,通过真核生物全基因组同源基因之间的进化距离,采用镜像树方法,以NCBI的HomoloGene数据库中18个真核生物的18,283个同源蛋白家族为研究对象,构建不同物种蛋白家族间的距离矩阵,并计算了每两个蛋白家族之间的皮尔森相关系数与向量数量值,得到人类蛋白质共进化网络。最后应用蛋白质复合物数据、DIP和HPRD数据库中的蛋白质互作数据以及代谢调控网络数据对蛋白质共进化网络进行有效性检验,验证结果表明共进化网络可以用于揭示蛋白质之间的相互作用关系。我们又进一步分析了蛋白质共进化模型相关系数过于聚集的原因,采用了不同物种宽度比较其进化距离差异,得出当前真核生物全基因组同源注释的物种较少,物种间进化距离宽度不明显,与人类远源物种数量较少是造成相关系数过于聚集的主因。后续更多物种测序完成,必将改善真核生物的蛋白质共进化网络研究。随着蛋白质组和基因功能的系统性研究顺利进行,转录组信息的需求也在不断地增加。尤其是研究不同细胞生理状态下和不同病理状态下的基因调控和功能方面,转录本与所编码蛋白质的具体分布和功能的关联性尤为重要。如何把这些转录组数据深入的整理、归纳、注释、存储以及合理的利用是我们研究的重要目标。近年来,综合型转录组数据库已经归纳整理并存储了各种不同测序技术的转录组数据,受到了广泛的使用。然而,当转录组学数据需要进行交互注释和深度挖掘时,这类数据库就无法满足了。因此,我们专门构建了人体转录组交互式注释系统,该系统以人体结构有向图为组织框架,利用链接表存储方式和深度优先遍历根路径算法存储和遍历人体结构图,搜索到的细胞或组织根路径方便了数据的查找和获取,最重要的是系统建立在Web2.0交互式平台上,扩展空间巨大。由于进行课题研究时,EST的测序技术较为成熟,数据覆盖面广、使用量大,所以,我们采用了EST作为系统的首选数据源。结合EST的文库信息,按照在人体健康与病理细胞中的表达情况,把其分类到相应的细胞或组织中。除此之外,进一步挖掘人的看家基因、组织特异基因、基因在染色体上的表达信息以及基因的GO功能分类,并将以上各种分析处理的数据综合起来补充人类转录组注释系统的数据信息。该系统基于mediawiki引擎,可提供交互式服务,用户不仅可以搜索、浏览、数据下载,也能够进行上传、注释等操作,方便系统中数据的实时更新,让每一位用户都成为管理员,使得系统高效有序地运行。最新数据库状态表明,短期内的高注册率和高访问量说明人类转录组注释系统具有较高的实用性。
其他文献
世界各国数学课程改革中都在关注数学建模,作为数学教师,我们有必要了解学生的数学建模能力现状及其影响因素,国内外皆有学者指出元认知是影响数学建模能力的重要因素之一。本研究通过实证研究的方式,探讨数学元认知与数学建模能力的关系,检验数学元认知是否能够影响数学建模能力的发展。本文主要进行了以下研究:通过文献综述梳理了相关的理论研究,界定数学元认知与数学建模能力的概念。编制数学元认知调查问卷和数学建模能力
函数是贯穿高中数学课程的主线,对数函数作为基本函数之一,是高中数学的重难点,教师的“教”与学生的“学”两方面都有一定的难度。杜宾斯基的APOS理论不仅指出了学生的学习过程是建构的,而且还表明了建构的层次,并为数学教师如何进行数学教学提供了一种具体的教学策略。因此,进行基于APOS理论的对数函数的教学设计,可以丰富对数函数的教学研究;有利于对数函数方面的教学;通过教学设计的实施可以检验APOS理论对
平面设计是设计师通过对文字、图形、色彩、版式的重新定义,让其具有新的意义。设计师透过这种方式,传达出想要传达的讯息,具有很强的个人色彩。在平面设计领域中,字体不仅是信息传达的重要媒介,也是视觉传达的重要因素之一。文字是人们在生活中传达信息的媒介,而字体设计也是平面设计中不可或缺的一部分。本文主要探讨了平面设计中字体设计的原则及字体设计在平面设计中的应用。
转录区域是基因组中存储遗传信息的主要区域之一,其核酸组分的特征常常表现为碱基含量的不平衡,是基因组学研究中的重要研究方向之一。核酸组分的不均衡的一个重要特征是GC含量由基因的5’端向3’端先升高后降低的梯度分布现象,称为GCgradient。 GC gradient存在于单子叶植物中,但不存在于双子叶植物中,其形成与转录偶联突变有关。在细菌和后生动物中是否存在GC gradient,其形成是否也与
作为一个新兴的研究领域,生物信息学为基因分布规律和相互作用规律的研究开拓了新的空间。不同世系(如脊椎动物和节肢动物)的动物基因有序地、有组织地融入到动态染色体结构,这些结构代表身体发育和细胞分化的主要调控机制。在对动物群内和群之间的基因组进行评估时,基因组中大多数基因实际上是群集的,这是在不同阶段的渐进式稳定,具有生物学意义。直到现在,很多关于基因组织的问题,如在一个群集(簇)中基因数目最小是多少
哺乳动物基因组数据海量和高速度的产出,对比较基因组的分析方法提出了新的要求。非同义替代率与同义替代率的比值广泛的用来衡量不同物种之间序列水平的选择压力,已经存在大量的核酸替代模型和计算策略产生了不同的计算方法。我们曾经引入伽玛分布的形状参数刻画不同位点的突变率的变化得到γ-MYN方法,本文中我们报道其它几种常用方法的修正形式:γ-NG、γ-LWL γ-MLWL、γ-LPB、γ-MLPB和γ-N。我
基因组测序技术的飞速发展促使完全测序的原核生物基因组的数目指数增长,进而有利于通过多物种之间的比较基因组学分析,解释细菌基因组特点以及生命活动机理。细菌基因组GC含量变化比真核生物更为复杂,同时由于细菌复制方式与真核生物不同,嘌呤含量、GC含量、和基因在前导链与后随链之间的分布都具有不均衡性。本论文主要对细菌基因组核苷酸组分变化和基因在复制链间分布特征做进一步系统而详细的探索和研究。我们将364种
c-Myc基因的重排、拷贝数扩增和异常高表达可以抑制细胞老化——机体对抗细胞癌变的主要屏障之一。一般认为,降低c-Myc在正常成纤维细胞或肿瘤细胞中的表达丰度均能够诱发老化进程,然而其介导的信号通路尚不完全清楚。通过运用蛋白质组学方法,我们已发现在c-Myc氐表达的TRE293细胞中,Bcl-2相关抗死亡基因2(BCL2-associated athanogene 2,BAG2)的蛋白质丰度明显升
转录组是特定细胞在某一功能状态下所能转录出来的所有RNA的总和。转录组所研究的内容非常广泛,包括mRNA转录本的表达(全长mRNA和表达序列标签(EST)等)、新基因的发掘、未知基因组上的基因定位、SNP、插入与缺失、可变剪切的识别、甚至包括等位基因特异表达和染色体重排等。现如今,转录组研究方法已形成四大类技术,并且随着成本的不断下降以及研究方法的不断更新,转录组被广泛应用到基因组学的各个研究领域
基因组的不稳定性是肿瘤发生的一个显著特点。准确的DNA复制,DNA损伤修复,以及在有丝分裂期染色体的精确分离都对维持基因组的稳定性起着至关重要的作用。由外源或内源因素对细胞内基因组造成不同形式的DNA损伤中,DNA双链断裂损伤是最致命的。在哺乳动物细胞中主要通过非同源末端连接和同源重组两条主要的途径来修复DNA双链断裂。在同源重组修复途径中,解旋由四条单链DNA分子形成的中间体Holliday交叉