【摘 要】
:
太平洋生物科学平台(Pacific Biosciences)和牛津纳米孔平台(Oxford Nanopore)的长序列(long read)测序技术的兴起,促进了基因组数据分析的发展。与短序列(short read)测序技术相比,长序列测序技术可以解决规模更大、更复杂的基因组组装问题。但是,长序列的错误率非常高,Pacific Biosciences测序技术产生的长序列的错误率约为10%~15%,
论文部分内容阅读
太平洋生物科学平台(Pacific Biosciences)和牛津纳米孔平台(Oxford Nanopore)的长序列(long read)测序技术的兴起,促进了基因组数据分析的发展。与短序列(short read)测序技术相比,长序列测序技术可以解决规模更大、更复杂的基因组组装问题。但是,长序列的错误率非常高,Pacific Biosciences测序技术产生的长序列的错误率约为10%~15%,Oxford Nanopore测序技术产生的长序列的错误率高达30%。纠正测序序列中的错误对于基因工程非常重要。已有的序列纠错算法对于高错误率的长序列纠错效果不够理想。为此,本文研究设计有效的长序列混合纠错串行算法和并行算法。本文首先提出一种基于de Bruijn图和k-mers序列比对的长序列混合纠错串行算法Hd GEC。算法Hd GEC通过将长序列与同物种的短序列比对以生成种子,使用短序列k-mers的Pg SA索引构建k值可变的de Bruijn图;然后将种子锚定在de Bruijn图上,遍历k值可变的de Bruijn图连接这些种子形成种子序列,使得连接两个相邻种子的序列路径覆盖了长序列中未与短序列比对到的区域;通过不断遍历k值可变de Bruijn图扩展种子序列末端,使得种子序列能够扩展到待纠错的原始长序列的末端,从而完成对长序列的纠错。算法Hd GEC既具有基于序列比对策略的优点,允许纠正长序列覆盖到的区域,又具有基于使用de Bruijn图方法的优点,可以纠正长序列中未被覆盖区域的错误。实验结果表明,与已有的长序列纠错算法相比,本文算法获得整体上高质量纠错的长序列,更适用于中等规模物种和大物种真实数据集的长序列纠错。在上述工作基础上,本文设计实现一种集群系统上的基于de Bruijn图的长序列混合纠错并行算法Par-Hd GEC。该并行算法基于Hadoop和Hazelcast框架,利用Map Reduce模型和分布式No SQL实现分布并行计算,且通过运用本文改进的最短路径算法使de Bruijn图中两个顶点之间的kmers覆盖率最大化,有效利用短序列k-mers覆盖率信息来纠正长序列中的错误,减少了纠错后的长序列中碱基的损失。在真实的大物种数据集上的实验结果表明,与已有的长序列混合纠错并行算法相比,本文给出的并行算法Par-Hd GEC整体上在获得较高的长序列纠正率和碱基纠正率、较大增益值的同时;并行算法Par-Hd GEC能够有效利用集群系统中不断增多节点的计算能力,所需的运行时间随着集群系统中参与处理的节点逐步增多而下降较快,获得的加速效果更好。本文的研究成果为使用纠正后的测序长序列进行生物大数据分析应用提供算法软件基础。
其他文献
近年来,全国各地都在如火如荼的建设交通系统,并在信息化基础上强调了智能化的概念,即智能交通系统。广西作为国家的一大省份,也加入了全国智能交通系统的建设队伍中。当下广西交通系统主要面临以下问题:一是交通情况掌握能力依然难以满足交调管理业务需要;二是公路交调成果的延伸效益不足,对相关业务的支撑作用不明显;再者,业务运行管理流程与新的管理要求不适应等。针对上述问题,本文对系统需求进行了详细地分析,并根据
互联网技术的发展,在改变人们生活方式的同时,也引领了传统教育教学模式的变革。随着网络教学资源的不断丰富,在线培训已经成为一种新的教育教学模式,通过搭建资源共享平台,可打破传统教学模式对时间和空间的限制,因此,"互联网+"背景下的在线培训业务呈现出快速增长的势头。《Hadoop大数据平台构建与应用》以Hadoop大数据平台的建设为主要研究内容,语言精练,通俗易懂,操作步骤描述详细,并配有大量操
如何减少浪费、降低运营成本和提高工作效率及服务水平,提高员工用餐体验和减少订餐、用餐耗时,是企事业单位食堂共同面临的问题和需求。研究开发一种集订餐和交互功能于一体的手机订餐交易管理系统,将其应用于企事业单位的食堂订餐业务中,不仅可为单位员工提供一种灵活便捷的订餐和交流餐饮知识的方式,有效减少员工在订餐上所耗费的时间,还可节省食堂经营成本和工作效率,打造便捷的食堂订餐及就餐模式。本论文阐述了基于An
在高校中,除了计算机信息类专业学生开设计算机课程之外,计算机基础应用课程也是学校所有专业学生修读的公共基础课程。这些课程的教学实践以及学生的毕业设计,对计算机公共实验室的需求量和使用率不断提高。这就需要有与之相适应的信息管理手段,以提升计算机公共实验室管理的效率和有效性,更好地为学校教学发展服务。本文分析了广西某高校的计算机公共实验室管理现状和发展需求,给出了计算机公共实验室管理系统应具备的身份核
随着医院信息系统的建设发展,医院积累的医疗数据日益增多。如何从医疗数据中发现有价值的信息,具有重要实现意义。据有关报道,我国妊娠期糖尿病发病率在逐年上升。妊娠期糖尿病会对母婴健康造成不良影响。预防妊娠期糖尿病的发生是卫生部门一项重要的工作。本文以孕产妇产检的诊疗数据和住院期间的诊断数据为基础,设计开发妊娠期糖尿病关联规则挖掘系统,对妊娠期糖尿病的危险因素以及妊娠期糖尿病与妊娠并发症、母婴妊娠结局的
旅行商问题是一个经典的组合优化问题,它在印制电路板钻孔、基因组测序、飞机航线安排和晶体结构分析等领域有着广泛应用。旅行商问题也是一个NP难问题,它在运筹学和理论计算机科学中有着重要地位。因此,求解旅行商问题具有重要的理论研究价值和工程应用背景,它已经成为组合优化问题中的研究热点之一。旅行商问题属于NP难问题,求解它的精确算法已经被淘汰。国内外许多研究人员采用群体智能优化算法对旅行商问题进行了研究,
当前大数据时代的到来,已经给各行各业带来了翻天覆地的变化和发展,更是推动了我们国企业的创新进程,为了能更好的适应新时代,利用大数据、云数据等手段推动行业创新营销,增加核心竞争力。中国联通作为国内三大运营商之一,针对市场调研数据的分析在如今的环境之下,已经变成了一项复杂的工作。本文基于服务的云模型平台,不仅能集各省各地市不同人员的分析角度,更是能减少资源成本,把隐藏在后台数据中的信息集中和提炼出来,
台风是一种体系庞杂的大气运动系统,具有严重的破坏性。目前世界上对台风强度预测还处于一个探索和研究的阶段,随着现代化天气业务和服务需求的变化,对台风监测系统自动化程度要求也随之提高。经过40多年的发展,预测员们正逐步将人工智能应用于台风强度预测,近年来,基于深度学习的卷积神经网络(Convolutional Neural Networks,CNN)正在成为研究的热点,此类对象分类技术也日趋成熟,但在
内部边界网关协议(Internal Border Gateway Protocol,IBGP)是互联网不可或缺的基础设施,若没有正确合理配置,很容易产生路由环路和次优路由。这些路由异常问题是非常有害的,它们会增加路由器的工作负荷,导致路由器的性能下降。因此解决上述IBGP路由异常问题是至关重要,但传统的解决方案要么配置复杂,要么消耗过多的资源。所以研究如何有效的解决IBGP路由异常的同时使得解决方
随着大数据时代的发展,对海量数据进行高效、安全的存储变得越来越重要。分布式安全存储技术结合分布式存储技术和数据加密技术,具备了安全、海量存储等特点,已成为当前信息安全领域研究的一个热点。在分布式存储技术中,对存储节点的选择是一个关键问题。选择的节点是否合理,会影响到系统的性能和存储容量的有效利用。在对现有节点选择算法进行研究后,本文提出了一个更加高效的算法——基于多属性决策的节点选择算法。该算法在