论文部分内容阅读
随着第二代测序技术的发展和成熟,测序数据量呈现超摩尔定律的增长,而后续的数据分析流程并没有得到与之相匹配的效率提升,同时转录组不仅在不同个体和组织细胞间各不相同,在不同的环境或时刻下也各不相同,因此转录组研究过程中的数据量通常更为庞大,相应的分析流程也亟待优化。 RNA-seq是基于第二代测序技术的转录组研究方法,本文总结了RNA-seq数据分析流程的基本模式,结合对典型实例的测试和评估定位了RNA-seq数据分析流程中的瓶颈所在,并依次对相关程序进行了优化。首先,分析了RNA-seq数据分析流程中各过程间的数据依赖关系并对整个流程进行了模块化,其次,对短序列比对工具Tophat进行了进一步的并行优化,最后,针对序列格式转换工具集Samtools中mpileup程序进行了并行优化。最终Tophat和mpileup的运行速度分别达到了原程序的1.8倍和9.6倍,与之相对应的RNA-seq数据分析子流程的运行速度在最好的情况下可以达到原流程的2.8倍。 本文的主要工作如下: (1) RNA-seq数据分析流程的模块化。结合RNA-seq的相关背景,总结了RNA-seq数据分析流程的常见模式,并结合一个典型的RNA-seq数据分析实例进行了测试和评估,定位了流程瓶颈,最后对整个数据分析流程进行了模块化分析。 (2)短序列比对工具Tophat的并行优化。Tophat是一种对RNA-seq产生的高通量短序列进行快速剪接比对的程序,工作流程可以分为预处理、序列比对、结果分析等阶段,其中预处理阶段是串行程序,以流水线并行的方式优化后平均运行时间减少为原程序的20%,序列比对阶段和结果分析阶段优化后的运行时间减少为原程序的60%,最终Tophat的总运行时间减少为原程序运行时间的55%。 (3) Samtools工具集mpileup程序的并行优化。Samtools mpileup主要用于发现变异位点信息,是流程的另一个重要瓶颈,mpileup在实现上采用了串行算法,经过对算法的进一步分析和实验验证,最终采用了数据并行的方式对mpileup进行优化,优化后mpileup在16进程下的运行时间可以减少为原程序运行时间的10%。