基于比对骨架的第三代测序数据比对与变异检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:temp1229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高通量测序技术的快速发展和国际大规模人类基因组计划的广泛实施,产生了EB至ZB量级亟待分析解读的大规模基因组数据。这些数据是新时代生命科学、人口健康、生物安全等战略性领域发展的基础,蕴含巨大的科学、社会和经济价值。序列比对和变异检测是基因组数据分析中的核心技术环节,对于基因表达量分析、选择性剪接、解析基因组中蕴含的遗传与变异信息、发现与疾病和表型的关联关系、揭示疾病发生与发展的分子机制等具有重要的意义。但是现阶段以序列比对为核心框架的数据分析流程在比对效率和变异检测的敏感性和准确性上仍存在不足,严重制约了基因组数据的分析及其应用。本文总结了基因组数据分析的基本方法与流程,针对现有以测序片段碱基级比对和结果分析为主线的变异检测方法存在的检测效率低和准确性差的问题,从基于基因组序列图表示模型构建的比对骨架这一新的角度切入,聚焦解决测序片段快速映射、片段比对一致性、精确变异检测等关键问题,突破现有基因组数据分析流程中的序列比对瓶颈,提高变异检测准确性。本文的主要研究内容如下:(1)针对基因组中大量重复序列引起的种子重复操作,从而导致比对效率低的问题,提出了以基因组重复序列为核心单元的基因组序列图表示模型,突破基因组中以单个碱基为单元、碱基之间的自然排列为核心的线性模型的局限。从种子定位、种子连接和扩展延伸等三个方面分析基因组序列图表示模型相比线性表示模型在序列比对中的性能优势,并基于基因组序列图表示模型哈希索引提出测序片段比对骨架构建方法,省去了传统方法中的碱基级比对信息分析过程,在不影响片段映射准确性的条件下,显著降低了测序片段比对的时间开销。(2)针对当前大规模基因组结构变异仍难高效、准确、敏感检测的问题,提出一种基于比对骨架与多特征融合的基因组结构变异检测方法。该方法摒弃了传统基于序列碱基级比对的结构变异检测流程,基于基因组序列图模型索引,构建并优化变异敏感的测序数据比对骨架,识别比对骨架中的非共线性单元,辨识隐含的结构变异信号,最后使用基于多特征融合的方法进行变异检测与基因型判定。在国际权威数据集上的实验结果表明,该方法较现阶段主流算法具有更高的结构变异检测准确性和敏感性,同时具有最高16倍的速度提升,并为结构变异检测提供了新的思路。(3)针对当前大规模基因组数据分析从原始测序数据到SNP/Indel变异检测时间跨度大和检测敏感性低的问题,提出一种基于比对骨架和一致性序列重构的SNV/Indel检测方法。该方法基于基因组图模型索引构建测序片段比对骨架,并对骨架间隙区域进行局部填充,显著提高测序数据比对的效率;通过比对骨架群堆叠识别候选变异位点,根据候选变异位点的序列和分布特征将其划分为不同类别,针对不同类别分别使用基于二项分布概率模型、多序列比对和局部拼接的策略进行变异检测和基因型推断。该方法能够有效提升变异检测的敏感性,同时检测效率提升了20-70倍,显著减少序列比对和变异检测的时间消耗。(4)针对长测序片段高错误率导致的转录组测序数据外显子检测敏感性与准确性低的问题,提出一种基于比对骨架堆叠的转录组序列比对方法。该方法使用双轮(2-pass)比对策略,综合利用所有测序片段的比对信息弥补高测序错误率带来的单一片段外显子检测缺失、选择性剪接位点高度杂合等问题。在第一轮比对中构建跨越内含子的测序片段比对骨架,并全部映射到参考基因组上整合并识别候选外显子;在第二轮比对中使用局部哈希索引将整合后的外显子还原到单一测序片段原始比对骨架中,构成局部剪接参考序列并完成序列比对。该方法在高效率比对的同时能最大程度地还原所有测序片段中存在的外显子,显著提高了比对的准确性和外显子识别的敏感性,突破高测序噪声条件下的短外显子识别、复杂剪切位点处理等瓶颈问题。本文聚焦基因组数据分析中的序列比对和变异检测关键问题,创建以比对骨架为基础的创新性基因组变异检测算法体系,改进了近十年来生物信息学领域以测序片段碱基级比对为核心的技术路线,旨在实现大规模基因组变异检测的系统性创新与质量提升,为基因组数据分析关键算法研究提供了新的思路。
其他文献
服务机器人和特种机器人需要在非结构化的山地、森林和城市家庭等环境中进行行走奔跑,代替或协作人类完成移动抓取、敲击加工等物理交互工作。这要求机器人必须具有优异的柔顺特性来保证人类、环境、物品和自身的安全,同时当具有较大的负载能力和准确的力控精度以便能够完成更多的工作和提供更有效的服务。磁流变液关节通过在传统机器人关节输出端串联一磁流变液离合器赋予了机器人关节优异的柔顺特性,同时具备了大负载和力控精度
学位
在传动系统中,扭矩是评价传动部件动力性能的一个关键性指标,通过对各旋转部件的扭矩进行测量,有助于对整个动力机械传动系统的传动效能进行科学评价。作为常用的扭矩测量工具,扭矩传感器广泛应用于电动机、发电机、内燃机等旋转动力设备输出扭矩及功率的检测,以及生产监控和质量控制等许多方面。为了保证扭矩测量的准确性和可靠性,需要定期对扭矩传感器进行校准。目前,绝对式扭矩校准多为实验室静态校准,主要采用悬臂梁加砝
学位
工业锅炉作为重要的供热供气设备,广泛应用于生产生活的多个领域。我国工业锅炉保有量约36.4万台,燃煤工业锅炉是其中的主导产品。由此可见,由燃煤工业锅炉生产运行而产生的环境污染问题不容忽视。中国已建成的工业煤粉锅炉在实际运行过程中大多存在以下问题:NOx原始排放量高、结渣严重、飞灰含碳量高等问题。因此,有必要开发出适用于工业煤粉锅炉的污染物排放量低、防结渣、稳燃性能好、燃烧效率高的燃烧技术。本文在电
学位
生物质资源因其储量丰富、可再生、碳中性、全球分布广泛和硫氮含量低等优点,被视为传统化石能源的理想替代品。作为传统农业大国,我国农林废弃物资源丰富,具有巨大应用潜力。生物质液化具有能量效率高、反应条件温和等优势,且无需对含湿原材料进行高能耗的预干燥过程,被认为是目前最具前途的可再生能源及高值化学品制备技术之一。然而,生物质液化油产物通常具有产率低、含氧量高、能量密度低、高黏度和腐蚀性等缺陷,难以直接
学位
高孔隙率开孔泡沫材料,具有独特的多尺度孔隙和空间网络结构特征,是一种新型的气体换热强化技术手段,已成功应用于电子设备散热等领域。由耐高温材料制造的高孔隙率开孔泡沫材料,在太阳能高温转换、高温气体余热回收、气体燃烧、飞行器热防护等技术领域也展现出广阔的应用前景。但由于对高孔隙泡沫材料内高温传热机理和特性的认识不清、缺乏可靠的热性能设计依据,导致高温泡沫材料的开发和应用受到极大限制。在涉及高温的工程技
学位
语音识别是人工智能领域的重要研究方向之一,它能将语音信号转化为对应的文本序列。目前关于语音识别的研究主要集中在基于深度学习的端到端技术上。深度学习模型通常需要等长的输入输出单元,但由于单个文本单元往往对应着连续多个语音帧,导致它们的序列长度不一致,因此,学习语音和文本序列间的对齐关系是端到端语音识别需要解决的关键问题之一。根据是否需要学习帧级的对齐关系,端到端语音识别技术可分为混合对齐型和软对齐型
学位
信息网,表示了真实世界中众多的对象以及对象之间的联系,在多种现实应用中广泛存在。对信息网的分析研究具有重要的实际意义和广阔的应用前景。在实际中,信息网上的对象和联系常常随着时间的推移不断发生变化,这样的信息网称为动态信息网。近年来,动态信息网中个体、社团及之间关系的分析工作已经取得了一些研究进展,并被广泛应用于实际。但是,相关研究仍然面临着很多挑战。第一,动态信息网中尚有很多重要而有趣的个体、社团
学位
浮动环密封是一种典型的径向间隙密封,其工作原理是在密封界面上形成一层极薄的流体膜,利用流体承载效应使浮动环与转子脱离接触,利用微小间隙的流阻效应实现对介质的密封。近年来随着大推力、可重复使用火箭和大型多功能复合离心机的发展,对浮动环密封寿命、可靠性和变工况适应能力等提出了挑战。本文根据高压、高速、变工况、可重复使用动密封工程应用需求,提出一种小孔节流动静压混合式浮动环密封(以下简称HFRS)。核心
学位
协作同时定位与建图(Simultaneous Localization and Mapping,SLAM)是指多个机器人在未知环境中通过协作,实现同时定位与环境地图创建的技术。协作SLAM被广泛应用于大规模环境建图,但是对系统总体协调效率以及机器人个体之间的协作能力要求非常高。因此,将多机器人系统学习方法应用于协作SLAM成为近年来的研究热点。但是现有方法存在着学习目的及方法单一,无法解决多机器人
学位
霍尔推力器是一种具有高效率、高比冲、长寿命等优点的电推进装置。霍尔推力器在工作过程中,其尾部会形成等离子体羽流。由于羽流中包含了大量的带电粒子,其在空间中的扩散会影响航天器所处的电磁场环境,同时产生的高能离子会打到航天器表面,对航天器表面造成力矩、热沉积、侵蚀等影响。因此,有必要对霍尔推力器羽流进行系统的研究工作。针对霍尔推力器的羽流研究主要包括地面试验、在轨试验和数值模拟三种手段。地面试验测量受
学位