论文部分内容阅读
基因是遗传与变异的物质基础,它支配着生物体的生、老、病、死等一切生命现象。基因组注释是通过生物信息学方法和相关工具,对基因进行高通量注释,研究基因组的生物学功能的过程,是当前生物信息学的研究热点。随着测序技术的发展,面对海量的测序数据,现有的基因注释工具已经难以满足现有的研究需求。针对以上问题,本文选取基因组注释中motif发现和基因功能注释两个急需优化的方向,基于现实中的应用问题,结合Intel MIC处理器,天河二号超级计算机和Hadoop大数据框架提出了优化和改进方案,以改进现有基因组注释工具的运行效率,主要包括如下三方面工作:1.MEME算法是目前国内外广泛使用的motif发现算法,它基于极大似然法,具有需要初始条件少、不易陷入局部极值的特点,MEME-Suite是开源的MEME算法实现。但MEME算法时间复杂度较高,随着测序数据爆发式的增长,较高的计算开销限制了MEME算法处理大数据集的能力。为此我们基于Intel MIC架构对MEME算法进行了优化,提出了基于Intel MIC的motif发现并行算法MIC-MEME。采用多线程并行优化起始点搜索算法,使用迭代计算的改进策略消除数据依赖、利用基于SIMD的向量处理器优化计算热点,并提出了CPU/MIC异构协同的并行框架。在高性能服务器上,采用CPU/MIC异构协同架构,充分发挥MIC的计算能力,取得了平均26.6倍加速比和良好的可扩展性,将原来需要17小时处理的人类启动子区两百万bps数据缩短到50分钟完成。2.MIC-MEME基于CPU/MIC异构体系对MEME算法进行了并行优化,取得了26.6倍加速比同时具有良好的可扩展性,但是MIC-MEME无法完全满足临床研究需求,并且仍具有较大的优化空间。为了能在短时间内处理千万bps数据,我们基于天河二号,使用跨节点并行的方法进一步优化了MIC-MEME,提出了基于天河二号的大规模motif发现并行算法。通过多节点并行优化起始点搜索算法,设计面向多节点的MEME算法和程序数据结构优化,在天河二号1024个节点上最高取得了3175倍加速比,能够在半分钟内完成原程序17小时才能完成的motif发现工作。并支持千万bps序列的motif发现,能够在7分钟内处理完成1千万bps的人类启动子区数据。3.SOAPgaea是基于Hadoop并行计算框架开发的基因组重测序分析套件,主要提供初级分析、变异检测和变异注释等功能。本课题主要对SOAPgaea的基因功能注释模块进行实现和优化,基于Hadoop实现了分布式基因功能注释模块。根据数据规律对多样本注释进行优化,消除冗余的数据库查询,提升了程序性能,并从程序易用性的角度实现了本地文件查询功能。经过测试,程序能够在4分钟内完成原来需要半小时才能完成的工作,具有较高的多样本注释效率,并且可以直接使用数据库文本文件进行注释,简单易用,具有良好的数据库扩展性,能够支持海量基因数据注释工作。