基于BWT的快速DNA比对系统的设计与实现

被引量 : 0次 | 上传用户:jiashi098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的快速发展,DNA测序数据爆炸式积累的速度远远大于其被处理的速度。DNA序列比对是生物信息学的一项重要的、关键的、基础的研究内容,是基因拼接组装的第一步,它是一个把测序仪测出的reads比对到参考基因组上的过程。目前的序列比对软件,根据建立索引方法的不同主要分为两类:基于hash的和基于BWT的,基于hash的序列比对软件有SOAP、MAQ等,基于BWT的序列比对软件主要有BWA、Bowtie、SOAP2等。在比对速度和比对精度上,测序数据的快速积累为当今的序列比对工具提出了巨大挑战。本文研究的是基于BWT的短序列比对,目前基于BWT的序列比对软件存在的一个问题就是高速缓存命中率过低,针对此问题,本文提出了一个对reads先排序后比对的算法。本文算法对待比对的reads进行从右到左按字典顺序排序,这样有相同后缀的reads经过排序会集中在一起,根据BWT查找子序列方法的特点,上一条read比对的中间结果可以为下一条read的比对所用,这样可以减少高速缓存命中率低的访问次数,据我们统计,对于大量的36bp长的reads,相同后缀的长度可达到18bp,这样就相当于平均每条read可减少18次的计算,从而提高比对速度。除了精确比对,我们还做了能够允许2错误的模糊比对,我们采用的是一个新颖的方法,对不能被精确比对的reads进行错误处理,产生新的reads,然后排序进行比对。在这个过程中我们构建了一个索引结构用来对错误处理过的reads进行筛选,大大减少了待比对的reads数量,节省了比对时间。为了验证基于排序的短reads比对算法是否能提高比对效率,本文用模拟数据和真实数据对系统进行了实验,实验结果表明,本文介绍的基于reads排序的算法是可行的,利用排序的reads的确比未排序的reads比对速度快。另外本系统还和目前其他比较流行的序列比对软件进行了比较,发现本软件在大规模序列比对时具有明显的优势,在比对过程中能够获得较高的比对速度和精度,特别是在精确匹配中表现出了良好性能。
其他文献
目的探讨53例老年腹股沟疝修补术患者的临床护理。方法采用随机平行对照法将我院收治的105例老年腹股沟疝行无张力疝气修补术的患者进行分组,对照组52例患者采用常规护理,观
风化作用导致地表岩石的破碎,是泥石流固体物质的主要来源之一。研究岩石风化作用对于研究高原泥石流物源的积累效应和泥石流的形成机理具有重要意义。在高寒地区,地表岩石以
源远流长的茶文化一直是每个中国人的骄傲,也是五千年来中国传统文化的一种独特模式。本文以漳州天福茶博物馆部分茶名英译的不同表现形式为研究对象,尝试探讨影响茶名英译策
本文主要根据冶金EPC项目实例,就价值工程理论在EPC项目设计成本控制中的应用进行初步探讨。
近年来,对"居民满意度"的评价研究愈发重视,社区作为居民日常生活的必需场所,关于社区公共安全评价也尤为重要。建立定量化城市社区公共安全规划体系是促进社区公共安全发展
地方立法在内容和形式方面都存在对上位法、同位法和下位法的"抄袭"。"抄袭"降低了地方立法的针对性和权威性,损害了法律体系的统一,阻碍了法律的发展。"抄袭"现象产生的原因
土楼世界文化遗产的研究得到了越来越多的关注,这种生活在同一个巨构建筑内却同居异财的聚居模式具有极高的建筑学价值。然而近年来从土楼外迁至新建居住区的人数不断增加,土楼
从市场上选取不同价格档次的冲锋衣面料和服装,对其性能进行测试分析,并通过AHP层次分析法确定各性能的权重值后对面料进行综合分析,分析结果表明,冲锋衣面料在价格制定上,对
<正>一、关于"现场指导式"亲职教育关于亲职教育是家庭教育内涵的深化和发展,它包含以下部分:一为"怎样做父母"的尽职教育;二为父母"如何与子女建立正向的亲子关系"的高情感
农民专业合作社是农民按行业或产业,在自愿的基础上,联合建立的一种合作经济实体。2013年中央一号文件提出,要创新农业生产经营体制,培育和壮大新型农业生产经营组织,构建集约化、