高通量基因组数据的处理、分析与建模

来源 :上海交通大学 | 被引量 : 10次 | 上传用户:zhangtianyu66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的不断发展,生物学相关数据也越来越多,如何从高通量实验数据中挖掘出有价值的知识和规律是生物信息学及计算生物学研究的热点之一。本文围绕高通量基因组数据处理、分析方法等展开了一系列研究,并取得了以下研究结果。1、随着第二代DNA测序技术的发展,人们揭示了越来越多不同物种的参考基因组序列和不同生物个体基因组序列。然而,如何存储和管理数量巨大的不同生物个体的基因组数据,已成为生物学家面临的一个重要挑战。本文提出了一种新颖的压缩工具GRS (Genome ReSequencing),用来储存并分析有参考基因组序列的基因组重测序数据。和以前的方法相比,GRS能够处理没有单核苷酸多态性参考序列和其他变异信息图谱的基因组序列数据,并根据参考基因组序列自动重建个体基因组序列。通过对第一个韩国人个体基因组序列数据的测试,GRS能够实现159倍左右的压缩效率,从原始2986.8 MB大小压缩至18.8 MB。通过对水稻和拟南芥测序数据的测试,水稻基因组数据从原来的361.0 MB大小压缩至4.4 MB,拟南芥基因组数据从115.1 MB压缩至6.5 KB。该压缩工具可以通过http://gmdd.shgmo.org/Computational-Biology/GRS访问。2、染色质免疫沉淀后对其进行大规模高通量并行测序(ChIP-Seq)是用于研究蛋白质和基因组DNA相互作用的的重要手段。本文设计了一种可以用来分析来自Illumina双端测序ChIP-Seq数据的新算法,并开发出其对应的分析工具SIPeS(从双端测序数据中鉴定结合位点)。我们获得了拟南芥AMS转录因子(一个参与拟南芥花粉发育过程的基因)ChIP-Seq实验;SIPeS分析结果与现有的分析方法CisGenome和MACS相比,有更高的结合位点识别分辨率。根据双端测序数据,SIPeS可以准确的计算出有效基因组长度(mappable genome length/effective genome length),并且通过使用动态基线(dynamic baseline)的方法有效地分辨出紧密相邻的结合位点,特别是对于拟南芥等基因密度较大的基因组时非常有效。该分析工具可以通过http://gmdd.shgmo.org/Computational-Biology/ChIP-Seq/download/SIPeS访问,目前版本为2.0。3、蛋白质的相互作用参与生物体生命活动的各个方面,虽然目前有超过10个以上的公用拟南芥蛋白质相互作用数据库。但是,这些数据库存在某些缺陷,包括使用没有统一标准类型的相互作用证据,缺乏统一的蛋白质或基因标识符以及使用没有标准定义的其它信息等。为了有效地整合来自不同相互作用数据库的数据,并最大限度地利用这些数据,本文提出了一个交互式的生物信息学网络工具,ANAP(拟南芥网络分析流水线)。ANAP是根据拟南芥蛋白质相互作用数据整合及其相互作用网络研究而开发的,它可以方便地进行蛋白质相互作用网络分析。ANAP集成了11个拟南芥蛋白质相互作用数据库,其中共包括201699对唯一的蛋白质相互作用对,15208个标识符(包括11931个TAIR的AGI号),89种相互作用检测方法,73种参与拟南芥蛋白质相互作用的物种,6161篇参考文献。ANAP可以用来作为构建蛋白质相互作用网络的知识库,根据用户的输入,支持蛋白质直接和间接相互作用分析。它有一个直观的图形界面,便于网络的可视化,并为每对相互作用提供详细的证据。此外,通过连接相应TAIR数据库,ANAP可以很方便在生成的相互作用网络中浏览相关基因或蛋白质的功能注释,并且可以比较方便的连接至相关基因或蛋白质对应的AtGenExpress可视化工具(AVT),拟南芥1001基因组GBrowse(1001基因组),蛋白质知识库(UniProtKB),京都基因与基因组百科全书(KEGG)以及Ensembl基因组浏览器(EnsemblGenomes)去更好的进行相互作用网络分析。该工具可以通过http://gmdd.shgmo.org/Computational-Biology/ANAP/ANAP_V1.0访问。4、转基因作物的安全性评价是转基因作物研究到其商业化过程中的关键步骤,其中分子特征是安全评价中最基本和最重要的部分,包括评价外源插入位点,旁侧序列及插入拷贝数等。相对于常规使用的检测方法,如Southern杂交,聚合酶链式反应,原位杂交,基因组步移等,建立和发展新的高通量转基因作物分子特征分析方法是有益和必要的。这里,我们在双端测序技术基础上开发了一个准确的高通量方法用以评估转基因水稻全基因组水平的分子特征。对于转基因水稻T1C-19,利用我们建立的方法,可以清楚的发现位于4号和11号染色体上的外源插入位点,该结果同时较好的得到了常规PCR和Sanger测序方法的验证。
其他文献
川滇黔接壤区是中国重要的铅锌多金属成矿区,目前已经发现了会泽、天宝山、大梁子等超大型-大型铅锌矿床。文章通过系统总结分析区域内铅锌矿床稳定同位素(C、H、O、S同位素)数
非物质文化遗产资源的种类、数量、分布状况、生存环境、保护现状等都存在一定的问题。为此,国家在2004年8月正式加入《保护非物质文化遗产公约》,国务院还发出《关于加强文
随着信息技术的发展,互联网作为一种服务越来越深远地影响人类的生活。在信息爆炸的背景下,海量信息处理成为计算机科学的新挑战。MapReduce是一个并行分布式数据处理编程模
传统乡村型聚落是中国古文化遗产的重要组成部分。它是经过长期的选择与积淀之后才形成的具有一定历史特色的聚落环境,与城市聚落一起构成了中国最基本的古代聚落环境类型。本
由于缺乏科学的预识别机制,已有研究并未甄别出参保人中谁会是延迟退休者。本文遵从参保人退休行为的异质性,将"退休"设为分类型潜变量,并使用2个显变量作为其测量指标,进而
近年来,随着大数据(Bigdata)的飞跃发展,信息技术作为企业日常经营活动的基础工具,不断渗透到企业的各个发展阶段。信息系统审计在大数据环境的影响下,迎来了新的机遇和挑战
目的:探讨手术室供应室清洗器械一体化的管理效果,对体会进行总结。方法:对手术室和供应室相关器械、设备和人员进行统一管理,对分配、运送、维护、消毒和管理各个环节实行手术室
<正> 一、味精行业的发展我国味精行业的发展速度是惊人的,据不完全统计,1960年我国的味精产量约4000吨左右,1980年味精产量发展到3.1万吨,1987年又迅猛增加到14万吨,全国198
科技型中小企业真正进入公众的视野是在20世纪90年代,随着市场经济竞争趋势的加强,竞争的焦点已经逐渐从资源优势、规模优势转移到了技术优势上来,人们对于科学技术的重视程
肾病综合征(NS)的患者常有高粘血症,在治疗过程中激素的使用以及NS所特有的高脂血症、低蛋白血症使高凝状态进一步加重,高凝状态是血栓和栓塞形成的重要原因。目前,高凝状态