基于家系基因测序数据的拷贝数变异检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tyycyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代测序技术的诞生,即高通量测序技术,使得人类全基因组在测序成本和测序时间上越来越低,这极大地促进了人们对基因组信息的研究。其中,对拷贝数变异的检测方法研究是该研究领域内的一项重要内容。基因组结构变异中的拷贝数变异不仅决定着个体差异,也决定着许多疾病的发生。如何在海量的高通量测序数据中准确的检测出拷贝数变异是该领域内研究的重点和难点。现有的对基因组拷贝数变异检测的方法层出不穷,然而,这些检测方法的准确率依然较低,且都是基于单个样本的测序数据的独立检测方法,无法准确检测出遗传型拷贝数变异和新生拷贝数变异。家系三样本的全基因组测序数据对研究遗传疾病和拷贝数变异的类型分析都起着非常重要的作用。本文针对现有的基于单样本拷贝数变异的检测方法准确率较低,且无法准确检测出遗传型拷贝数变异和新生拷贝数变异的问题,研究基于家系三样本测序数据的联合拷贝数变异检测方法。对现有的基于reads深度信息的概率模型进行分析,使用真实的测序数据对这些概率模型进行拟合。综合评测各个模型的优缺点,选择效果最好的模型供检测方法研究使用。研究测序数据中双末端映射信息的性质,分析真实数据集中双末端映射信息插入片段长度的分布情况,设计基于双末端映射信息的聚类检测算法。通过对真实的测序数据中SNV位点上等位基因频率信息的分析,使用β—二项分布拟合等位基因频率信息,进而完成等位基因频率概率模型构建。本文详细介绍了基于家系三样本测序数据的拷贝数变异检测的构建过程。该检测系统使用使用隐马尔科夫模型,将基于reads信息的概率模型和基于等位基因频率的概率模型作为隐藏状态和观察状态之间的发射概率,将基于双末端映射信息的聚类算法添加到该检测系统的后处理过程。该系统支持对家系三样本的拷贝数变异同时进行检测,意在提高检测性能的同时,准确检测出遗传型拷贝数变异和新生拷贝数变异。
其他文献
随着科技的高速发展,人们对生活质量的要求越来越高,无人驾驶汽车已经被广为研发和试用,由此智能小车的快速发展也是在情理之中。通过对基于单片机的智能小车的硬件及软件设
<正>伦敦佛里斯特中学是一所有远见的、并且愿意接受新科技的学校。近年来,在系统管理员David Posner的建议和指导下,该学校在IT人员和设备等方面都进行了很大的投资,他们认
<正>一、教学背景"思维导图"(mind map)是英国著名心理学家东尼·博赞(Tony Buzan)20世纪60年代发明的风靡世界的可视化组织性思维工具。这种技术将词汇、图形、数字、逻辑、
由于世界镍需求增长和硫化镍资源短缺 ,红土型镍矿资源开发将成为未来十年镍业发展的主要趋势。 1999年以来 ,澳大利亚西部新建的总投资 2 0多亿澳元的三个高压酸浸技术HPAL
如果不能充分了解这个世界,人类也就不可能有效地参与这个世界。现时代,科学向传统哲学智慧提出了挑战。科学和人文之间,自然界和人类世界之间在传统中存在着鸿沟。生态危机
在介绍水下石油管道法兰连接机具的工作原理的基础上,设计了螺母库的多马达同步控制系统。采用同步阀与同步分流器组合方式实现了20个马达的速度同步。分析了影响液压系统同
<正>新传播背景下电视新闻在传播模式上发生了很大变化,呈现出直播化、国际化、品牌化与分众化的特点。一、新传播背景对电视新闻节目主持人的冲击新传播指的是与传统传播形
以贮气瓶供气弹射系统作为研究对象,利用功率键合图和"分段建模"的方法建立了数学模型,用MATLAB软件编制了仿真模型,并用验证过的仿真模型对该系统进行大量仿真研究,得到了系
随着基因组测序技术的迅猛发展,个人基因组测序已逐渐成为疾病诊疗、健康管理以及探寻生命奥秘的主要手段之一,极大推动了遗传学、基因组学和医学等相关学科的发展。与此同时
水泥乳化沥青砂浆(cement and emulsified asphalt mortar,CA砂浆)是高速铁路板式无砟轨道的关键功能材料之一,流动度对CA砂浆的工作性、稳定性和耐久性等产生重要影响。论文试