基因芯片数据和基因表达分析

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:movax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片是生物学和生物医学中的一项革命,随着基因芯片技术的发展,产生了海量的基因表达的数据,而如何从海量基因表达数据中挖掘有意义的信息始终是一项巨大挑战.本文利用生物信息学分析方法和基因芯片实验技术,分别进行了编码基因的芯片数据的分析和非编码的ncRNA基因表达的研究工作.本文介绍了基因芯片的原理、应用、数据和数据分析的方法,并介绍了基因芯片和基因芯片数据的研究现状,提出本文研究的主要问题.首先,关于编码基因的大规模的基因芯片数据的积累,使利用基因芯片数据进行大规模网络分析成为可能,本文以酵母的编码基因的大规模芯片数据,验证由ChIP-on-chip实验数据构建的基因调控网络,并且通过寻找一致性子网结构进行从基因芯片数据推测基因网络的研究.其次,现有的基因芯片多被应用于编码基因表达的研究,利用基因芯片技术对非编码基因表达的研究并不多见,本文设计了联合芯片,同时检测mRNA和.ncRNA基因的表达量,对线虫中的短的ncRNA基因(<500bp)的表达进行了系统的研究,并且系统检测了这些ncRNA的5-端2,2,7-三甲基鸟苷的帽子结构. 首先,本文首次利用大规模基因苡片数据评估基因调控网络数据.调控网络数据来自于大规模的ChIP-on-chip实验的基因组定位数据.在数据的处理过程中,如果转录因子的结合位点位于两个转录方向相反的基因之间,会存转录因子和两个基因之间建立两条调控关系,这样会在转录调控网络中引入一些假阳性的调控关系.针对这种情况,本文通过大规模的基因芯片数据,利用二次表达谱相关系数的方法对这类数据进行评估.评估的结果用基因功能的GO注释进行验证,有56﹪的被基因芯片数据验证的调控关系同时能被GO注释验证,这说明利用基因芯片数据验证转录调控关系的有效性,并提示同时结合基因芯片数据和GO注释数据进行调控关系的评估能得到更好的效果.38条已知转录调控关系大都同时被基因芯片数据和GO注释数据支持,这也进一步说明评估的有效性.从转录因子在染色体上结合位点的分析发现,离转录因子比较近的基因更容易受其调控.对可信度低的转录调控关系研究发现转录调控网是一个鲁棒的(robust)网络,这些转录调控关系的引入只是改变了网络的末端结构,而不影响整个网络的框架. 第二,本文把寻找一致性子网的概念应用到了由基因芯片数据推测基因关系网络的研究.基因表达数据包含了基因之间的相互关系,从表达数据推测基因关系网络一直是个课题.许多以前的研究通过整合的基因芯片数据进行构建调控网络的研究,但是不能避免在不同的实验条件下,基因间的关系变化的情况.因此,通过整合的基因芯片数据推导的基因之间的关系有时无法反映特定条件下基因之间的关系.但是,可以通过整合的基因芯片数据推导出在各个条件下结构都保守的基因调控关系,这些调控关系可以更准确的反映基因之间的真实关系.本文提出了一个可扩展的高效算法,这个算法基于次序统计、min-hashing和locality-sensitive等统计学方法,从整合的基因芯片数据中发现一致性子网结构.本文考虑了一致性子网中变量两两之间的一致性统计意义上的相关性.结果显示,在一致性子网中,基因间的相关性强,并日稳定,这说明这些基因之间的关系紧密.很多一致性子网中的基因的GO注释富集于特定的基因功能GO term中,说明这些类是有生物学意义的. 第三、本文首次提出了检测mRNA和ncRNA表达的联合芯片,并分析了线虫中 ncRNA基因的表达,以及ncRNA基因的表达与mRNA基因表达的关系.小的非编码 ncRNA基因是在RNA水甲发挥生物功能的基因,在许多物种中已经发现了数百种 ncRNA基因.本文系统的研究了线虫(C elegans)中除了microRNA之外的小ncRNA基因的转录谱.线虫的大量的ncRNA位于编码基因的内含子中,所以本文还分析了这些ncRNA和相关的宿主mRMA基因表达的相关性.通过能够同时检测ncRNA和mRNA水平的联合芯片发现,很多ncRNA在不同的发育条件和刺激下的表达是显著性变化的,即使是对于那些被认为是看家基因的ncRNA(例如,snRNA和snoRNA),这个结果说明这些ncRNA的表达在不同发育阶段或刺激条件下是受到调控的.对ncRNA和宿主mRNA表达的分析发现,那些有前端保守序列的ncRNA基因的表达水半远远大于其对应的mRNA的表达水甲.对于没有前端保守序列的ncRNA基因,虽然它们的表达和宿主基因之间有明显的相关性,但是在表达上也有惊人的独立性,特别是对于某些特定功能的基因.总之,联合芯片给出了关于ncRNA基因表达的一个全面、细致的图谱,可以被应用于其他物种的研究上. 最后,利用ncRNA基因芯片和免疫沉淀技术,本文第一次系统的分析了线虫的ncRNA的5-端2,2,7-三甲基鸟苷(m<,3>G)的帽子结构.在5-端具有m<,3>G帽子结构的RNA通常有重要细胞功能的RNA,如snRNA等.本文利用免疫共沉淀和ncRNA的基因芯片,系统地检测了线虫ncRNA基因的m<,3>G帽子结构.所有在其他物种已发现的带有m<,3>G帽子结构的ncRNA都被检测到,这个结果说明了方法的有效性.与剪接相关的ncRNA家族,即SL RNA和Sm Y RNA,和8个C/D盒的snoRNA也有m<,3>G帽子结构.进一步分析发现,SL RNA、Sm Y RNA和U5 sngNA具有更加保守的Sm蛋白结合位点(AAU<,4-5>GGA),与其他U系列的RNA的Sm蛋白结合位点略有不同.而13个具有m<,3>G帽子结构的ncRNA序列中没发现Sm蛋白结合位点,这说明在这些ncRNA中,Sm蛋白的结合并不是m<,3>G帽子结构成熟的必要条件.预测由RNA多聚酶Ⅱ转录的ncRNA大都有m<,3>G帽子结构,而由RNA多聚酶Ⅲ和通过内含子剪接的ncRNA-般没有m<,3>G帽子结构,这说明:m<,3>G帽子结构的形成和ncRNA的生物合成有关系.有m<,3>G帽子结构的ncRNA的表达水平一般大于无.m<,3>G帽子结构的.另外,有6个具有m<,3>G帽子结构的ncRNA没有被功能注释,本文的研究可以为它们的功能研究提供帮助.
其他文献
本文对面向轻量级应用的开源WebGIS内核的设计与实现进行了探讨。本研究结合WebGIS的应用特点,基于Java技术设计实现了一个面向轻量级应用的开源WebGIS内核——PKGML2。在PKGM
本文依托国家自然科学基金项目(项目号:40202030),着重从矿产资源预测结果数据的三维重构方面入手,利用计算机图形学的相关算法,借鉴医学、游戏软件制作等领域中已经成熟了的可视
随着互联网的发展和网民数量的增加,网上电子商务市场也在不断扩大。伴随着电子商务的发展,网上的产品评论也越来越多。商家和网民都希望能有高效而准确的工具来处理这些产品评
最近几年,移动设备正逐步地取代传统计算设备,在人们日常生活中扮演着愈加重要的角色。伴随着移动设备的快速增长,保证移动设备上应用的质量成为一个急需解决的问题。因此,针
本文主要关注的问题是如何正确理解网页内容的真实语义并按语义之间的联系度量网页间的相关度。针对这一问题,作者提出了一种新型的信息检索模型,该模型的理论和应用包括:1)构建
随着信息技术在金融、交通、军事、生态监测、网络监测等领域的深入应用,需要计算机处理的数据类型和数据量与日俱增。作为一种新的数据类型,数据流在近些年得到了计算机界的广
开放、动态、多变的Internet环境要求运行其上的软件不仅具有较高的服务质量,而且需要更强的适应性在运行时刻保持相应的质量属性目标。 最近几年,在软件体系结构层次对软件
本文对数据流管理系统Argus中并行处理的性能优化进行了研究。文章指出,集中式的数据流处理系统已经不能满足规模同益增长的流数据的处理要求了,因此人们提出了并行数据流系统
新世纪信息技术和软件产业的一个显著的特征是计算机在网络环境中工作,依靠底层的通信链路交换信息.这就自然产生了越来越多的网络优化问题.这些问题通常是大规模的,需要快速求
学位
互联网在当今社会已经是我们生活的一部分,有效的数据交换是互联网发挥其能力的基础需求。为了应对互联网中数据的愈发明显的异构特性,国际万维网组织(World Wide Web Consor