基于隐马尔可夫模型的外显组拷贝数异常检测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:qcolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是在癌症还是非癌症的疾病中,拷贝数变异(copy number variation,CNV)均扮演了重要的角色。包括全基因组测序、外显组测序、转录组测序在内的新一代测序技术的飞速发展为检测拷贝数变异带来了新的高通量实验平台与分析手段。读段深度(read depth,RD)是分析这些测序数据的重要信号,然而读段深度受到鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的严重影响,同时,外显子在基因组上分布稀疏且不均匀。因此,如何利用新一代测序技术检测拷贝数变异仍是十分具有挑战性的工作。本文旨在提出并实现外显组的测序数据的分析方法:我们首先定义了相对读段深度(relative read depth, RRD)并探究了该信号的统计学性质。分析结果显示,相对读段深度能较好地用经验公式描述,这为建立统计模型和优化模型参数提供了有利条件。并且,相较于原始读段深度,相对读段深度受鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的影响较小,因此是更为理想的信号。在相对读段深度的基础上,我们建立了隐马尔可夫模型(hidden Markov model, HMM),并利用最大期望算法(expectation-maximization algorithm)迭代优化模型中的各项参数。最终,我们利用Viterbi算法来估计各个外显子的拷贝数,从而完成对拷贝数变异的检测。为了给其他的研究者提供分析工具,我们将这一算法开发为软件ExomeHMM。为了测试算法的性能,我们首先分析了千人基因组计划的数据,利用实验验证的拷贝数作为金标准,我们将ExomeHMM与同类算法进行了比较,结果显示,在所有测试的算法中,ExomeHMM具有最高的综合性能。最后,我们利用ExomeHMM分析了三阴性乳腺癌的临床数据,并利用得到的拷贝数变异区段找出样本中可能发生异常的基因,富集分析的结果显示,这些基因与乳腺癌相关疾病显著相关。综上,无论是在正常样本或是肿瘤样本中,我们建立的模型均能较好地检测拷贝数变异和得出有生物学意义的结果。
其他文献
学生的问题解题思路在数学整体学习中占有重要地位.培养学生的问题解题思路不是偶然的.问题解决的思维方式决定了学生思维方式的核心内容发生变化.解决问题的思维使学生能够
牙齿根管治疗,也称为根管治疗,是齿科临床上治疗牙根疾病的一种重要手段,包括拔除受损牙神经和细菌、清理和消毒等一系列步骤。对于现阶段的根管治疗而言,尤其是对于某些拔除
非调质中碳钢由于其碳含量较高的原因,强度高但韧性较差。研究发现钢组织中细小弥散的晶内铁素体能细化钢组织,改善其强度与韧性。因此,致力于找到晶内铁素体形核的影响因素,探究其形核机理。利用金相显微镜、扫描电子显微镜和能谱分析仪(SEM-EDS)等设备研究非调质中碳钢诱导晶内等轴形铁素体形核的影响因素。实验发现夹杂物尺寸在2~4μm这一区间诱导出的等轴形铁素体最多,最利于铁素体形核;夹杂物诱导晶内等轴形
随着现代社会竞争的日益激烈,培养小学生的竞争意识和竞争力将有助于他们在成长过程中更好地适应社会.足球的特点之一是竞争激烈.激烈的竞争驱使每个玩家不断尝试和创新.足球
传统的语文教学大多以阅读为导向,忽视在语文教学中语言运用能力的教学,这种教学理念不利于学生语文素养的提升.随着素质教学的开展,学校和教师越来越重视学生的语文素养的提
铜冶炼转炉渣是火法炼铜的一种主要副产物,含有一定量的铜、锌、铁、钴等金属元素,是潜在的二次资源,若不加以利用,不仅会造成资源浪费,还会带来环境污染。目前铜冶炼工业资源消耗大,二次资源利用率低,以适当的工艺从铜渣中回收有价金属具有重要理论意义和现实意义。由于目前铜渣的选矿贫化工艺尚未回收钴等有价元素,本文以某铜冶炼厂外排的转炉渣及其选铜尾砂为研究对象:以NH3·H2O为浸出剂,对选铜尾砂进行氨性浸出
半导体光催化技术是当今环境与能源领域的研究热点。通过利用清洁、可再生的太阳能,光催化技术在较为温和的反应条件下将有机物彻底矿化分解,不会造成二次污染。常见的光催化剂
小学数学中,最基础和最重要的能力便是简便运算.这种运算能力会使我们终生受益,即使是以后的高等数学,也是建立在最基础的运算能力之上的.针对这一问题,本文先是揭示目前小学
学位
在新课程改革的不断推进下,对小学数学教师提出了新的要求,教师要全面培养学生的思维能力,让学生形成良好的逻辑思维能力、问题分析及解决能力以及抽象思维能力,实现小学生的