基于隐马尔科夫模型的外显组拷贝数异常检测

被引量 : 0次 | 上传用户:nopromises
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是在癌症还是非癌症的疾病中,拷贝数变异(copy number variation, CNV)均扮演了重要的角色。包括全基因组测序、外显组测序、转录组测序在内的新一代测序技术的飞速发展为检测拷贝数变异带来了新的高通量实验平台与分析手段。读段深度(read depth, RD)是分析这些测序数据的重要信号,然而读段深度受到鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的严重影响,同时,外显子在基因组上分布稀疏且不均匀。因此,如何利用新一代测序技术检测拷贝数变异仍是十分具有挑战性的工作。本文旨在提出并实现外显组的测序数据的分析方法:我们首先定义了相对读段深度(relative read depth, RRD)并探究了该信号的统计学性质。分析结果显示,相对读段深度能较好地用经验公式描述,这为建立统计模型和优化模型参数提供了有利条件。并且,相较于原始读段深度,相对读段深度受鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的影响较小,因此是更为理想的信号。在相对读段深度的基础上,我们建立了隐马尔可夫模型(idden Markov model, HMM),并利用最大期望算法(expectation-maximization algorithm)迭代优化模型中的各项参数。最终,我们利用Viterbi算法来估计各个外显子的拷贝数,从而完成对拷贝数变异的检测。为了给其他的研究者提供分析工具,我们将这一算法开发为软件ExomeHMM。为了测试算法的性能,我们首先分析了千人基因组计划的数据,利用实验验证的拷贝数作为金标准,我们将ExomeHMM与同类算法进行了比较,结果显示,在所有测试的算法中,ExomeHMM具有最高的综合性能。最后,我们利用ExomeHMM分析了三阴性乳腺癌的临床数据,并利用得到的拷贝数变异区段找出样本中可能发生异常的基因,富集分析的结果显示,这些基因与乳腺癌相关疾病显著相关。综上,无论是在正常样本或是肿瘤样本中,我们建立的模型均能较好地检测拷贝数变异和得出有生物学意义的结果。
其他文献
职业自我效能感是军人素质的重要体现,影响着军人的职业行为和工作绩效。提高军人职业自我效能感是培养信息化高素质军事人才的内在要求。为此,要在正确认识军人职业自我效能
<正>1月末,在海南省的两会上,肖杰笑容满面,带领最年轻、最小的三沙代表团出现在海南省人大会堂三沙厅。这个由8人组成的代表团代表了200多万平方公里海域,也代表了国家对南
《带家具出租的房间》是美国短篇小说大师欧.亨利的代表作之一,该故事的叙述逻辑呈一种独特的时间不等的平行发展两面式,其叙述角度又与之相适应,这两者的结合构成了欧.亨利
随着年龄的增长大脑的功能会衰退.可以通过决策实验获取年轻人和中老年人的行为决策脑电信号,定量分析大脑随年龄增长而出现的变化.本文提出了一种基于熵的脑电波刻画方法,结
为了正确引导和帮助青少年学生健康成长,需要树立正确的教育价值观、人才观、学生观、教学质量观、教学观和师生观。
目的:通过自黏性流动树脂与自酸蚀粘接剂以及传统型复合树脂的比较,研究了自黏性流动树脂的性能,并进一步明确酸蚀预处理对自黏性流动树脂与牙本质粘接性能以及自酸蚀粘接剂
在社会变革的过程中,医疗体制也在发生着变化,人们对医疗器械质量的重视度逐渐提高。医疗器械在一定程度上影响着医疗事业的进步与发展,保证医疗器械质量能助力医疗水平的提
随着无线数据通信技术与多媒体业务的高速发展,第四代移动通信(The 4th Generation Mobile Communication,简称4G)应运而生。4G以其超高的数据传输速率,被广泛应用。频谱作为
痔疮是临床上一种种最常见的肛门疾病,发病跟患者的排便习惯、饮食、职业、遗传、感染等因素有关。常见症状有便血、疼痛、痔核脱出、肛门瘙痒、便秘等。根据发生部位的不同,
报纸
<正>值此天津市教育科学研究院建院15周年之际,我要向你们表示最热烈的祝贺,祝贺你们过去取得的丰硕成果,祝愿你们今后取得更多的研究成果。你们是在全国率先成立教育科学研究院