基于De Bruijn图的基因拼接算法研究

被引量 : 4次 | 上传用户:wohao1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序在工业中的广泛应用以及以高通量、短序列、覆盖度高、测序引入错误等为特点的第二代基因测序仪的大量使用,需要进行处理的基因组测序数据常常长达数十亿碱基对,现有的全基因组DNA序列拼接技术通常不能胜任拼接工作。人们对序列拼接技术这一生物信息学领域最重要的研究课题进行广泛而深入地研究,以实现海量基因组序列拼接。当前,基因测序技术主要是基于图论的算法,其中最常用的是基于De Bruijn图的拼接算法。针对海量的基因测序数据,构建分布式的De Bruijn图,实现基因拼接的并行化,可以有效的解决因数据量大而造成计算过程中内存资源不足的问题,也能合理提高拼接速度,缩短测序的时间周期,降低测序成本,优化拼接质量,以应对大规模应用的要求。因此,基于De Bruijn图,针对大规模基因数据序列拼接的并行化研究具有重大的理论和实践意义,同时也是研究的热点。本文以生物的基因序列数据为研究对象,提出了采用图论的方法和并行计算技术,研究基于De Bruijn图的快速、高效和可扩展的并行基因序列拼接算法。作者的主要研究工作如下:(1)阐述了应用于基因测序技术中的基本计算模型(OLC图模型和DeBruijn图模型)的一些基本概念与相关算法,其中重点研究了具有参考对比价值的YAGA算法。(2)本文提出了一种加速效率显著、扩展性能良好的并行拼接算法实现DeBruijn图拼接。在构图方面,改进YAGA图形的存储模式,使用更少的存储空间。在图化简上,借鉴velvet对tip结构的处理原则,去除长度小于2k的链。运用深度优先搜索算法遍历图形,大量减少处理器之间的通信以及计算节点的移动,降低拼接过程中时间、空间消耗。在顶点数据处理方面,依据频度原则,去除阈值以下的顶点,减少了图中顶点的数量,降低了测序错误带来的错拼问题,优化了拼接结果。(3)在算法性能测试阶段,采用四组不同规模的生物基因数据从执行时间、加速效率和可扩展性等方面对算法各个模块以及整体性能进行测试与验证。实验结果表明,本文的拼接算法加速效果明显,扩展性良好,尤其对于大型基因组的拼接。
其他文献
第1部分ⅢA(N2)期NSCLC完全切除术后患者的总体预后分析目的:通过回顾性分析,总体观察我院ⅢA(N2)期NSCLC行根治性手术患者的治疗疗效。并重点探讨从临床以及病理因素来筛选能
刑事被害人是犯罪行为的直接受害者。作为受害者,刑事被害人不仅遭受到身体和物质上的损害,而且往往承受着精神上的痛苦和折磨。对刑事被害人的诉讼地位给予恰当的定位,并对
我国城市污水处理投融资模式的正确选择是解决好污水处理资金问题的关键。城市污水处理是属于准公共品性质的公共事业,兼具纯公共品和私人品的特性,其投融资模式的选择也异于纯
前言缺血性心脏病是人类健康主要杀手之一。据统计,美国20岁以上成年缺血性心脏病总患病率为7.0%,是死亡最常见原因之一[1,2]。在我国,随着经济增长和生活水平的提高,缺血性
建筑物在使用过程中的的鉴定与加固,是人类有建筑以来便已出现的一个古老、传统的专业,但就其内涵而言,它仅能算是一门新的学科。而且由于建筑业和现代科学技术迅猛发展,这门新学
TETRA数字集群通信系统是国际上发展较为成熟的数字集群通信系统。相比于公网的蜂窝移动通信系统,它具有呼叫建立速度快,可靠性高,话音服务质量高,频谱利用率高等特点。近年来,该
<正>买房有补贴、就医有保障、创业给政策……近年来,宁波国家保险创新综合试验区果敢出招,谋划育才、引才、留才大计,以力度罕见的人才吸引政策、不断完善的聚才引智模式,吸
【正】 为了贯彻落实党的十四大精神,提高政法干部的政治、业务素质,我省首期政法委书记培训班于十一月三日在我院举行开学大会。省委常委、政法委书记方苞同志到会并作了重
目的探讨在低年资护士护理查房中应用概念图的方法与效果。方法随机选取工作五年以下的护士60名,分成两组,干预组在护理查房中应用概念图,对照组采取传统的多媒体护理查房形
近年来,随着城市建设的快速发展,电力电缆供电广泛得到应用,电缆维护的工作量成倍增加。由于原先电缆路径资料不尽如人意,电缆路径的探测与电缆的鉴别成为电缆维护工作中极其重要