面向高通量测序序列的比对算法研究

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户：yaotoumiao

【摘要】

：

在过去的数年中,高通量测序在极大的拓展了测序技术应用领域的同时也产生了海量的测序数据集。如何将这些海量的测序序列数据快速的比对到基因组上,准确的找出它们的原始位置

【作者】

：

陶然

【出处】

：

南京航空航天大学

【发表日期】

：

2018年01期

【关键词】

：

高通量测序序列比对比对算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的数年中,高通量测序在极大的拓展了测序技术应用领域的同时也产生了海量的测序数据集。如何将这些海量的测序序列数据快速的比对到基因组上,准确的找出它们的原始位置是许多生物医学领域研究的前提和至关重要的一步,因此已有许多序列比对工具被开发出来专门用于短序列比对。然而随着高通量测序技术的不断发展,生成的序列长度已由最初的36bp增加到100~150bp,一些针对短序列开发出的基于BWT索引结构的比对工具在使用回溯算法实现模糊比对时会带来候选解占用空间过大,搜索替换占用时间过长的问题。因此,一些后期开发的高通量测序比对软件普遍开始通过从序列中选取种子优先进行比对的策略来寻找整个序列在基因组上的比对位置。然而由于一般情况下种子的长度较短,在参考基因组上拥有大量的候选位置,因此或是需要耗费数倍于参考基因组大小的空间来存储这些数据或是需要相当的时间进行反复查找。为了更好的满足高通量测序序列比对的新要求,我们在BWT索引结构的基础上结合了哈希索引的策略,提出了一种基于改进索引结构的比对算法,能够很好的达到时间与空间的平衡。具体工作如下:(1)本文首先对近几年发布的,面向100~150bp长度的序列比对工具进行研究和分析,发现其内存空间需求较大的原因是所建立的哈希索引需要储存种子在参考基因组上的所有候选位置。利用BWT索引结构内存占用小的特点,我们提出将两者的优势相结合,首先建立一个关于参考基因组的BWT索引,将遍历生成的所有长度为13bp的种子序列利用BWT索引计算得到辅助数据sp,ep值。有了sp,ep值可以在任何需要的时候利用FM-Index计算出所有候选位置,而储存时只需要用两个值即可代替所有候选位置,大大减少了空间消耗。(2)在对传统的FM-Index分析过程中,发现其为了限制空间消耗,采用了采样存储的方式,这使得其在利用sp,ep值进行查找定位时存在访存次数多,计算量大的缺点,特别是候选位置规模较大时,计算耗费时间更加突出。为此我们设计了一种树形结构结合广度优先搜索的算法,优化了这一过程,大大减少了时间消耗。(3)按照下游分析需要的不同,比对模式可以分为两类,找全的比对模式和找最佳的比对模式。而本文重点研究找最佳比对模式。在候选位置筛选阶段,我们提出了一种不同于种子扩展策略的新筛选方法。这种方法的不同之处有两点:1)种子长度更短数量更多,并且只做精确匹配;2)结合最优路径覆盖算法筛选出聚类后种子位置集得分较高的位置。通过实验,我们首先验证了改进的索引结构的有效性。之后,我们利用模拟数据与NCBI网站上的真实测序数据在相同的实验环境下对所提出的优化算法与现有的一些主流比对算法进行了比较与评估。实验结果表明本文能在较小空间需求下更好的满足中长序列比对的需要,同时在时间效率上有所提高,并且获得了较为满意的比对结果。

其他文献

行楷书元素在现代字体设计中的运用

以行楷书为研究对象,形态元素为研究方向,行楷书的造字经验为研究载体;着眼于书法对汉字字体设计的影响,吸收一些行楷书名家作品的书法特征以及审美经验用于设计创作。文章由四部分构成:第一部分,绪论,主要阐述选题意,对行楷书元素的研究背景与现状的探析,确立研究方法。第二部分,论述行楷书字体设计发展的历史与现状,阐述现代设计背景下字体设计的趋势;第三部分,重点阐述行楷书元素在字体设计中的运用方向,找到传统书

学位

行楷书字体设计造字经验应用研究

叶黄素通过Nrf2/GSK-3β信号途径抑制人乳腺癌细胞增殖的效应研究

研究背景叶黄素(lutein)是一种天然植物化学物,在结构上属于含氧类胡萝卜素。叶黄素具有多个共扼双键的特殊结构,使其具有抗氧化应激活性和多种生物学功能,包括抗炎症和抗肿瘤效应等。目前乳腺癌仍然是世界范围内的公共卫生困境,是严重威胁女性健康和生命的最常见的恶性肿瘤之一。在过去的二十年中,与乳腺癌相关的干预防治研究已经引导我们对乳腺癌发生发展及机制的理解取得了长足进展,从而进一步提高了治疗效果。活性

学位

叶黄素GSK-3β/FynNrf2NF-κB通路乳腺癌活性氧

成石性胆汁及胆管癌性胆汁对人肝门部胆管癌细胞增殖的影响

目的:通过观察正常胆汁(NB)、成石性胆汁(CB)、胆管癌性胆汁(TB)对肝门部胆管癌细胞增殖的影响,探讨胆道结石、胆管癌性胆汁与肝门部胆管癌发生、发展的关系。方法:选择

学位

肝门部胆管癌胆管肿瘤胆汁胆囊结石胆管结石

热化疗对体外肝癌细胞及其对中晚期肝癌抑制作用的研究

目的 ①研究5-氟尿嘧啶、丝裂霉素、顺铂、阿霉素这四种不同的化疗药物分别联合温热后对肝癌细胞BEL-7402的杀伤能力和诱导其凋亡能力的变化,观察热化疗对细胞周期的影响,和

学位

肝癌热化疗凋亡细胞周期基因

基于协作干扰的中继系统的物理层安全

近年来,随着无线通信领域的快速发展,无线终端数量急剧增加,通信数据的总量呈现指数式地增长,无线通信的安全问题引起了人们的广泛关注。物理层安全技术是在信息论的基础上充分利用了无线信道的种种传播特性,且不存在密钥管理以及分发的问题,和加密技术相互补充,能够进一步确保无线通信的安全传输。近年来,该研究方向得到了广泛关注,相关的技术正在迅速发展。协作干扰技术作为物理层安全技术的重要分支,主要是利用发送人为

学位

物理层安全中继系统译码转发协作干扰安全中断概率

马克思哲学的话语革命与中国哲学的话语危机——兼论“中国问题意识”

自20世纪90年代末期以来,越来越多的学者强烈地意识到当代中国人文社会科学迫切需要进行一场学术话语革命,从近百年中国学术话语变迁的轨迹和规律、西方学术话语向东方国家渗

期刊

马克思哲学方法论原则中心主义哲学革命“中国问题”思辨哲学

大理白族自治州学前教育发展研究

民族地区学前教育是民族地区教育的组成部分,对我国民族地区教育的发展起着重要的作用,民族地区学前教育的发展也是我国大力发展教育、文化事业的需要。当前,国家出台了各项

学位

大理白族自治州学前教育教育政策

应用组织芯片技术研究EPO在人胃癌组织中的表达及其意义

目的:在机体内,促红细胞生成素(erythropoietin,Epo)是受缺氧调节的糖蛋白类激素,近几年来有人提出它可能还是一种强效的促血管生成因子并发现部分肿瘤组织中也有表达。本实

学位

胃癌EPOHIF-1a肿瘤血管生成组织芯片

术前口服碳水化合物改善术后胰岛素抵抗的作用及其机理研究

目的评价机体对口服碳水化合物的耐受性、观察口服碳水化合物对术后胰岛素抵抗的作用并探讨其可能机理。方法选取择期行结直肠癌根治术患者32例并随机分为对照组和试验组。对

期刊

大肠癌手术碳水化合物胰岛素抵抗机理

2019年10月中国大陆需关注的突发公共卫生事件风险评估

目的评估2019年10月在我国大陆地区发生或者可能由境外输入的突发公共卫生事件风险。方法根据国内外突发公共卫生事件报告及重点传染病监测等各种资料和部门通报信息,采用专

期刊

突发公共卫生事件传染病疫情风险评估

面向高通量测序序列的比对算法研究

与本文相关的学术论文