基于第三代测序数据的基因组结构变异检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:loveagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的不断成熟和广泛应用,以测序技术为驱动的基因组、转录组等多组学的研究得到了跨越式发展,推动了基因组科学、遗传学、临床医学等多学科的变革。基因组变异检测作为基因组研究中最为核心和关键的环节,对于基因组注释、与疾病和表型的关联分析、临床诊断等具有重要的意义。然而,由于基因组存在大量复杂的结构变异,现有的检测技术和方法在变异检测的准确性、敏感性、全面性以及性能上已无法满足当前基因组前沿研究的需求,在日益增长的海量测序数据面前面临着巨大的挑战。
  本文全面总结了基因组结构变异识别和检测的基本方法与途径,重点分析了现阶段结构变异检测面临的难点与问题。本文以提升结构变异检测精度和计算性能等方面作为切入点,针对性的开展一系列相关的研究与实践,开发了多款基因组结构变异检测方法以及工具,有效地解决当前基因组研究中多个瓶颈问题。本文的主要研究内容如下:
  (1)针对大规模高相似性的移动元件变异难以准确、敏感检测这一问题,本文研究了一种基于片段重比对的基因组移动元件变异检测方法rMETL。该方法采用创新性的序列重比对方法,将测序片段的异常比对序列部分与已知移动元件进行重新比对,使复杂多样的局部比对信息转换为具有高度一致性的移动元件变异证据信息。在国际权威测序数据集上的实验结果表明,rMETL能有效提升移动元件变异检测的敏感性,并保持较高的检测准确性。这一方法有助于移动元件变异的精准发现,挖掘更多与疾病和表型的关联,是一款重要的前沿科研工具。
  (2)针对现有结构变异检测工具无法检测参考基因组之外的DNA序列这一问题,本文研究了一种基于局部序列拼接与聚类的基因组新序列插入变异检测方法rCANID。该方法以新序列插入变异形态为出发点,结合局部拼接手段,通过对异常比对片段和未比对片段的双重聚类和拼接,分别重构靠近插入边界和远离插入边界的两类新序列插入变异局部序列,并通过启发式算法连接和合并两类局部序列从而检测完整的新序列插入变异。在国际权威测序数据集上的实验结果表明,rCNAID算法较之现有结构变异检测算法,能有效提升新序列插入变异的检测敏感性,有利于发现样本所特有的DNA序列,对一些罕见疾病的发现和治疗具有重要的生物学意义。
  (3)针对当前结构变异检测技术的识别率和敏感性仍然处于较低水平的现状,本文研究了一种基于多特征融合的基因组结构变异检测方法cuteSV。该方法采用创新性的多重特征融合聚类方法,将异常测序片段中的多重变异信号聚类,利用多种基因组空间结构信息对结构变异进行进一步整合,在显著提升变异检测的识别率和敏感性的同时,兼顾发现复杂变异的能力。在国际权威测序数据集上的实验结果表明,cuteSV是目前领域内结构变异检测综合性能最好,计算性能最优的一款工具。该工具将为相关的基因组工程分析带来全新的支持。
  (4)针对现阶段结构变异检测的计算瓶颈问题,本文研究了一种基于测序片段过滤的基因组结构变异检测工作流加速方法rMFilter。该方法首创区域哈希表索引和区域种子命中快速统计方法,通过对测序片段的准确、快速分类,在数据分析源头极大地减少输入数据量,从根本上降低结构变异检测工作流的计算代价。在国际权威测序数据集上的实验结果表明,rMFilter与主流结构变异检测工作流组合使用,使基于第三代测序数据的结构变异检测速度整体提升一倍以上,并取得了与原始工作流相同的变异检测结果。该工具可以有效提升结构变异检测分析速度,为大规模基因组分析任务带来曙光。
  本文以基因组结构变异检测为重点,以全面提升基因组结构变异检测的准确性、敏感性、多样性和计算性能为目的,充分发挥第三代测序数据的优势。通过开发多种类型结构变异检测方法和工具,切实解决现阶段基因组研究中的瓶颈问题,全面有效地推动以基因组结构变异为导向的相关研究的发展,为基因组前沿科学研究提供了新的研究思路、技术手段与理论支撑,具有很高的实际意义。
其他文献
任何社会都是由蕴涵特定时代特征的经济、政治和文化所构成的一个动态的、有机的系统,其中进步的文化是社会全面、和谐、稳定发展的智力支持和精神动力。众所周知,我国是农业大国,农民占到了全国人口的绝大多数。农民问题关系到我国的长治久安及未来发展。目前我国处于社会主义的初级阶段和新型发展阶段,社会主义新农村的经济、政治和文化蓬勃发展,而新农村的文化建设作为经济、政治的重要组成部分,出现了新的变化和动向,面临
本文主要是考述自清代以来关于《晋书》研究的一系列著作,以总结这一段时间内,在《晋书》研究领域内取得了哪些具体的成就,我们如何运用这些成就,以及将来在《晋书》研究领域主要还有哪些问题需要解决等。  在具体的考述过程中,把清代以来关于《晋书》的著作主要分成三部分,即各种关于《晋书》的补表和补志、关于《晋书》的考校和注释、近代以来关于《晋书》的研究及评价。每一部分基本上以时间为顺序,逐一考述各种著作。在
学位
晚清湖湘学者在老庄学的研究上颇有特色,晚清湖湘老庄学的兴起,是湖湘文化传统精神和现实激烈碰撞的结果,也是晚清湖湘人文荟萃的社会和文化氛围培植下的结果,当然,也与学者自身的教育背景有关。  以郭庆藩、王先谦、王闿运为代表的湖湘老庄研究者基本上是乾嘉考据派的传人。魏源《老子本义》在思想价值方面显得很突出,虽然没有套用西学的方法来阐释《老子》的本义,从这一点来说,近代性显得不足,但魏源在这里毕竟比传统的
学位
旅游史研究在旅游学和历史学的研究中皆未深入展开,现代旅游史研究更少有人涉足。长沙现代旅游业的发展已有近三十年的历史,既是中国现代旅游发展的缩影,也是中部地区省会城市现代旅游发展的典型代表。当前,经济全球化日益明显,金融危机日趋加剧。危机蕴涵契机,本文根据湖南省委省政府提出的“把湖南省建设成为世界级旅游目的地”和长沙市委市政府提出的“将长沙建设成为全国知名的文化旅游休闲之都,实现长沙由国内旅游向国际
作为一种新兴的微通道换热技术,毛细微槽群蒸发热沉可以利用毛细力使液体在沿微槽道流动的同时能够在三相接触线附近的扩展弯月面区域内形成具有高强度蒸发能力的薄液膜而具有较理想的换热效果,因而能用来实现极高换热系数和热流密度的换热目的。本文旨在通过对竖直矩形毛细微槽群蒸发热沉的实验与理论研究,揭示液体在竖直矩形微槽中的润湿、流动和相变换热机理,为下一步研究开发高性能矩形微槽群相变换热器提供一定的理论基础和
以甲醛作为室内有机挥发物的代表,以PM10作为室内颗粒污染物的代表,通过实验研究证明水溶液可有效吸收室内甲醛,185nm/254nm紫外光可有效降解水中甲醛,水膜对PM10的去除效果有限。利用水溶液吸收甲醛的实验表明:空气中甲醛的初始浓度对水溶液吸收甲醛的效果影响很大。空气中甲醛初始浓度越高,水溶液吸收甲醛的效果越好。在最初30分钟内空气中52~59%以上的甲醛可以被水溶液吸收,在60分钟内空气中
永磁同步电机(PMSM)因为具有体积小、结构简单、工作效率和功率密度高等优点,在交流调速系统中的地位变得日益重要。因此对永磁同步电机进行高性能的控制是现阶段交流调速系统研究的重点。永磁同步电机控制系统一般采用速度环,电流环的双环控制结构。控制系统的暂态和稳态特性很大程度上由电流环的性能决定,而转速环的性能直接依赖于反馈转速的精确性。  目前,预测电流控制从原理上提高了电流环的暂态响应速度,是现在的
电力系统是当今世界实现能源生产与能源输送最为重要的角色,电力的可靠供应关系着人类生活与生产的方方面面。及时快速地发现变压器等电力网中非常关键的设备出现的故障问题,对于提高电力系统的供电可靠性具有重要意义。对充油电力设备的故障检测,普遍采用的是分析油中溶解气体这一方法。传统的在线气相色谱分析法存在组件复杂、运行成本高和安全性差等缺点,而采用光声光谱技术的在线监测拥有检测灵敏度高、维护方便、检测时间短
学位
该文是利用等离子体化学气相淀积法(Plasma Enhanced Chemical Vapor Deposition,PECVD),在低温低压下,使用有机物TEOS(正硅酸四乙脂,Tetraethylorthosilicate,Si(CHO))为反应源在硅片表面上生长P-SiO介质膜以及P-SiON钝化膜,利用制程参数(RF功率、基板温度、气体流量以及反应压力)的改变,来探讨对薄膜的生长特性、硬度
论文介绍了并联型有源电力滤波器的原理和常规控制思想及基于此控制思想的控制方法.在此基础上提出了一种新的控制思想以及建立在该控制思想上的两种不同的控制方法.分析了PWM的原理、几种数字PWM的形成方法以及并联型有源电力滤波器直流侧电压的控制.运用两种控制方法,对并联型有源电力滤波器进行了计算机仿真,仿真结果证明了两种方法的正确性以及并联型有源电力滤波器具有良好的补偿性能.论文详细分析了并联型有源电力
学位