面向RNa-seq数据分析流程的并行优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kangzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第二代测序技术的发展和成熟,测序数据量呈现超摩尔定律的增长,而后续的数据分析流程并没有得到与之相匹配的效率提升,同时转录组不仅在不同个体和组织细胞间各不相同,在不同的环境或时刻下也各不相同,因此转录组研究过程中的数据量通常更为庞大,相应的分析流程也亟待优化。  RNA-seq是基于第二代测序技术的转录组研究方法,本文总结了RNA-seq数据分析流程的基本模式,结合对典型实例的测试和评估定位了RNA-seq数据分析流程中的瓶颈所在,并依次对相关程序进行了优化。首先,分析了RNA-seq数据分析流程中各过程间的数据依赖关系并对整个流程进行了模块化,其次,对短序列比对工具Tophat进行了进一步的并行优化,最后,针对序列格式转换工具集Samtools中mpileup程序进行了并行优化。最终Tophat和mpileup的运行速度分别达到了原程序的1.8倍和9.6倍,与之相对应的RNA-seq数据分析子流程的运行速度在最好的情况下可以达到原流程的2.8倍。  本文的主要工作如下:  (1) RNA-seq数据分析流程的模块化。结合RNA-seq的相关背景,总结了RNA-seq数据分析流程的常见模式,并结合一个典型的RNA-seq数据分析实例进行了测试和评估,定位了流程瓶颈,最后对整个数据分析流程进行了模块化分析。  (2)短序列比对工具Tophat的并行优化。Tophat是一种对RNA-seq产生的高通量短序列进行快速剪接比对的程序,工作流程可以分为预处理、序列比对、结果分析等阶段,其中预处理阶段是串行程序,以流水线并行的方式优化后平均运行时间减少为原程序的20%,序列比对阶段和结果分析阶段优化后的运行时间减少为原程序的60%,最终Tophat的总运行时间减少为原程序运行时间的55%。  (3) Samtools工具集mpileup程序的并行优化。Samtools mpileup主要用于发现变异位点信息,是流程的另一个重要瓶颈,mpileup在实现上采用了串行算法,经过对算法的进一步分析和实验验证,最终采用了数据并行的方式对mpileup进行优化,优化后mpileup在16进程下的运行时间可以减少为原程序运行时间的10%。
其他文献
论文主要针对网络入侵检测中的告警分析问题,完成了网络入侵检测告警分析中心的设计和原型实现.该文集中讨论了告警分析中的数据融合、相关性分析等问题.根据不同设备或应用
语言辨识使用的方法很多和非特定人的语音识别和说话人识别技术相关,可以从声学模型角度或语言模型角度展开研究,该文侧重的是后者.回退文法对那些看不到的合法的可能性能够
实施现代远程教育工程形成开放式教育网络,构建终身学习体系,是充分利用和优化我国教育资源,普及与提高全民素质,降低教育成本,让全民享有充分受教育权利的一项重大工程。远程教育
在云平台技术飞速发展的环境下,虚拟化技术所具有的隔离性、易部署性以及硬件独立等特性,使其日益成为对外提供平台服务的基础。云计算将软、硬件资源进行整合,通过服务的形式提
该文讨论了目前采用的IP网络QoS服务模型:集成模型(IntServ)、区分模型(DiffServ);分析了现有的区分服务体系提供服务质量保证中的存在问题,提出一种新的保证端到端服务质量
学位
当前随着嵌入式系统快速发展及应用,嵌入式系统软硬件设计越来越复杂。为了验证设计正确性,需要设计人员使用模拟器对系统进行评估验证。  嵌入式系统的核心部件是微处理器,对
办公自动化系统,作为一种信息化的工具,提供本单位与外界之间的信息交换,建立高质量、高效率的信息网络,为领导决策和办公提供服务,实现办公现代化、信息资源化、传输网络化和决策
IP网络电话由于其价格低廉、业务灵活等独特的优势,成为当今世界上发展最快的应用技术之一。它受到很多组织和公司的普遍关注,许多人正在从事该技术的研究工作。同时也产生了很
电子政务是推动国民经济信息化的关键。由于信息化建设在分散体制下进行,造成了现有的信息系统都是分散、异构、封闭的系统,互相之间不能信息共享。要真正发挥电子政务的实效,必