基于de-bruijn图的第三代测序长read纠错算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhaotong125555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪70年代后期,英国生物化学家Frederick Sanger研发了第一代基因组测序技术,开启了基因组学新纪元,为探索生命的本质奠定了基础。经过科研人员的不断完善,测序技术历经三次迭代,至今仍然不能直接测得完整的基因图谱,只能先将完整的基因截取为不同长度的read(碎片),随后测得read序列,通过拼接技术将这些read拼接为完整的基因组图谱。完整的基因组图谱在分析遗传变异中发挥着重要的作用,然而第三代测序技术产生的长read有着高达15%的错误率,不能直接使用,因此校正这些高错误率的长read是当前重要的研究课题。此前已经提出了很多纠错算法,但是存在通量不足或精确度不高的问题,因此本文提出采用混合de-bruijn图用于长read纠错的新算法。算法采用第二代测序技术产生的精确的短read对错误率较高的长read执行错误校正。为了进一步提高短read精度,引用了现有算法Bcool进行预处理,Bcool可以较好的校正短read中的错误。将校正过的短read构建固定长度和非固定长度的两个de-bruijn图,在第一步校正过程中遍历待纠错的长read以找到与固定长度de-bruijn图一致的可靠短序列作为依据进行纠错,在第二步校正过程中将未找到可靠短序列的长read使用最大精确匹配算法与非固定长度的de-bruijn图中的节点对齐并再纠错。实验结果表明,本文提出的算法在虎皮鹦鹉、斑马宫丽鱼、拟南芥等实验数据中均取得较好的表现,通量保持在89.88%-97.28%,评价指标对齐率和精确度相比于其他对照算法均有明显的提升。总体而言,本文算法能在合理的时间内,较好的完成纠错任务。
其他文献
新时代的发展、科学技术的进步促使艺术设计领域发生了翻天覆地的变化,这些变化日渐刺激着人类审美的转变,人们对美学的渴望也愈发强烈。海报设计要迎合新时代的发展需求,拓宽其表现维度成为促使其不断发展的必然趋势。空间纵深感的研究为设计师们提供了更多表现其创意及想象力的机会,创作形式也不再局限于图形、文字等传统的设计要素,而是在设计中融入空间的思维理念,通过研究视觉经验的生成,以透视法再现真实的世界的空间幻
学位
旅游产业的飞速发展使得人们对旅游商品的需求度也大幅提升,作为旅游产业的重要组成部分,旅游商品及其包装设计也愈发受到行业及相关学者的重视,并不断强调为它们植入地域特色的重要性,然而当前市场中的旅游商品及其包装设计依旧存在着许多问题,在地域性特色的植入上也缺乏系统化的具体策略。本文在前人的研究基础上,希望通过对旅游商品特征及叙事性设计方法的研究,探索旅游商品包装设计地域性表达更细致的可行性策略。全文基
学位
太赫兹波具有广阔的应用前景,相位调制器是实现太赫兹系统应用的一类重要功能器件。本文基于超材料结构的研究基础,从动态调制的应用需求出发,研究了实现太赫兹波相位调制功能的透射式、反射式、可切换的超材料器件结构。利用二氧化钒与石墨烯等可以动态控制的材料与传统设计相结合,依据在不同应用场景下的需求设计了一系列的太赫兹超材料功能器件。利用三维电磁仿真和多极子散射能量的计算深入分析了所设计器件的工作原理和功能
学位
We Are Social和Hootsuite合作发布的《2022全球数字洞察报告》显示,全球的社交媒体用户已经达到46.2亿,约占全球总人口的58.4%,较去年同期增长了10%以上。在这个社交媒体蓬勃发展的时代,越来越多的用户通过自己的社交账号,将个人的看法或体验以图片和文本的形式来分享给他人。这类带有用户丰富情感的多模态数据有利于了解人们对某一事件看法,在政治选举、大盘走势、票房预测及情绪干预
学位
图像修复是指用一系列方法恢复破损图像。针对现有修复方法存在的问题,提出了两种图像修复算法,主要工作内容如下:针对现有算法在背景复杂和大面积不规则破损的修复条件下,修复结果存在结构不合理和纹理细粒度低的问题,提出基于密集多尺度融合扩张卷积的图像修复算法。首先,将破损样本输入全局结构生成网络中,该网络的核心模块为密集多尺度融合扩张卷积块;其次,将结构生成网络的输出样本输入至细节生成网络中,该网络包含密
学位
切口疝是腹部手术之后,由于创口感染、恢复不佳或运动过量等因素导致手术切口的下方形成腹壁缺损,该缺损一旦形成无法自愈,且具有日益扩大的趋势,严重影响患者的生活质量。目前,通过外科手术在腹壁缺损处植入补片,以承受原腹壁缺损区域与周围组织之间张力的手术方法已成为切口疝标准的治疗方案。基于体内异物残留最小化的发展趋势,疝修复补片逐渐轻量化。但因腹内压或剧烈运动,体内的补片可能会产生移位、皱缩和卷曲等情况,
学位
中国农作物种类繁多,农作物产量和质量影响着经济发展和农民收入,农业健康稳定发展一直是国家追求的目标。因此快速准确识别农作物病害种类并及时给予准确防治至关重要。传统农作物病害图像的识别主要靠少部分农业专家从病害图像的颜色和形状进行识别,这样既费力效率又低,也比较主观,容易导致误判错过最佳治疗时间。而现有农作物病害图像识别研究方法主要是从图像背景分割、机器学习相结合进行病害识别,但图像背景分割难度大、
学位
在城市化、工业化背景下的“陌生人”社会,专业化、组织化的现代慈善事业凭借着信息优势得以蓬勃发展。互联网、智能手机等技术的不断进步在日益丰富慈善参与方式和渠道。网络募捐的“指尖公益”凭借门槛低、操作便捷、募款高效等特性获得越来越高的社会参与度和关注度。与网络募捐兴起相伴的是骗捐、诈捐事件层出不穷,一些网络平台遭遇认同危机。追根溯源,无一不是网络募捐平台多方参与主体之间信息分布不对称的结果。如何解决网
学位
针对现有深度网络修复大面积随机缺失区域时存在修复结构不合理、生成细节模糊等缺陷,本文提出两种改进的修复模型:基于并行卷积的双阶段对抗网络图像修复与基于多尺度信息融合的单阶段对抗网络图像修复。论文主要贡献如下:针对现有算法在修复大面积规则掩码时出现的结构信息不连续和语义信息缺失的问题,提出一种基于并行卷积的两阶段修复模型,该模型由并行卷积组成的粗修复网络和融合残差连接与注意机制的细修复网络组成。首先
学位
下肢静脉曲张产生的主要因素是由于静脉壁薄弱、瓣膜功能障碍和静脉内气压的不断增加,进而影响血液回流,从而导致静脉延长、产生迂曲、扩张等的临床症状。静脉曲张的最主要治疗方法是外科手术,由于通过外科手术可以根治静脉曲张,因而术前检查和个性化治疗方案的制定在静脉曲张的诊治过程中显得尤为重要。目前在临床上主要采用彩色多普勒超声、下肢数字减影血管造影(Digital Subtraction Angiograp
学位