基于压缩后缀数组的空间高效短读比对算法

被引量 : 0次 | 上传用户:fanfan19860303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代基因测序技术(NGS)的出现使得测序成本飞速下降,随之而来的是大量的短读序列需要更快速准确的比对程序来处理。第一代基于散列表技术的序列比对算法如Bowtie等能够快速准确的完成比对工作,但其不支持gap比对的特性使得在短读序列(short reads)过长导致indel出现频繁时,比对的精度也随之下降。另一方面,近年来压缩索引(BWT,CSA,FM-index)领域的相关研究使得在较小内存中索引人类基因组这样的大规模序列成为可能。这导致近年来出现了很多基于压缩索引的短读比对算法,如BWA,Bowtie等。本文提出了一种基于压缩后缀数组和后向搜索实现近似匹配的算法来实现短读比对,在比对时间和空间以及比对精度上都取得了很好的效果。基于压缩后缀数组的短读比对算法(CSAA),采用了压缩后缀数组来构建参考序列的索引,并使用后向搜索来做匹配。通过引入搜索树,CSAA实现了近似匹配算法,从而支持完全的gap比对。此外CSAA在搜索树上使用了一种类似堆的优先堆数据结构,大大减小了搜索空间。而且每一次的搜索方向都能保证是最优的。最后结合罚分机制以及difference距离,定义seed等方法,进一步降低搜索空间,提高了CSAA的比对速度和精度。CSAA的高效体现在三个方面。一是空间高效的索引方法;二是基于后向搜索的高效的近似匹配方法;三是seed策略和多线程比对技术的利用。本文采用了增量法进行压缩后缀数组索引的构建,从而跳过后缀数组的构建,降低了对内存的需求。而在比对时,seed的引入使得在比对短读的前几十个核苷酸就可以放弃大部分无效的搜索方向。多个短读比对的相互独立使得并行化成为可能,使得CSAA使用多线程时可以获得数倍的加速优势,从而可以根据计算机的cpu核数指定多个线程,以取得最优的比对速度。CSAA支持单端和双端序列比对,以Fastq格式输入,输出为标准的SAM(Sequence Alignment Map)格式。
其他文献
蔬菜是人们的日常食品,蔬菜质量安全直接关系到每个人的身体健康,关系到国计民生.随着人民生活水平的提高以及我国加入WTO后,对蔬菜质量安全提出了更高的要求,保证蔬菜生产安
目的:探讨先天性心脏病室间隔缺损中干下型室间隔缺损的临床特点和治疗效果。方法:室间隔缺损补片修补51例,直接缝合7例,6例行主动脉瓣折叠悬吊术治疗合并的主动脉瓣关闭不全
①目的观察乙酰半胱氨酸治疗肺间质纤维化患者的疗效。②方法将60例肺间质纤维化患者随机分为常规治疗组和乙酰半胱氨酸治疗组,比较两组患者治疗前后检测血清Ⅲ型胶原(Ⅲ-C)
本文在系统评析若干有关可能世界本体论问题的代表性文献的基础上,提出了从哲学上定义可能世界的新思路:(1)"世界"意义上理解的可能世界。(2)"可能性"意义上理解的可能世界。
<正>一、小引《文心雕龙·体性》中,刘勰举十二位作家为例,说明自己的才性理论。其中对刘桢的评价是"公斡气褊,故言壮而情骇"。刘桢,字公斡,三国著名文人,建安七子之一,其事
中国—东盟自由贸易区的建立对区内及各成员国吸引FDI将产生重要的影响,本文首先对中国和东盟各国利用FDI的概况进行了分析,然后着重从静态和动态不同的角度出发,分析了建立
<正>最早爆发空气污染的是以伦敦为代表的欧洲工业城市。因此,欧美国家对于工业化与环境污染的认知是有切肤之痛的。因为经历过由工业发展带来的空气污染阶段,以BLUEAIR(布鲁
<正> 道教是历史发展的产物,有社会的原因,也有认识论的根据。社会原因使人们放弃自身的力量,认识论根据则使之为自己的无为找到一种安慰。庄子“齐是非”思想便是这种认识论
期刊
本文从文化反思和审美透视的角度审视萧红的"故园意识",认为萧红的故园意识是一种在20世纪社会剧变的历史条件下作为游子的萧红对家乡进行审美关照后形成的一种意识系统结构
中英文商标是跨文化交流中一种重要文化现象。它如同一座桥梁,把中西方,企业及消费者紧密联系在一起。本文从中西方文化差异的视角概述了文化背景对商标翻译的影响,介绍了英