基于高通量测序数据的基因组变异检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qxq00007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,高通量测序技术迅猛发展,个人基因组测序已经在基础医学研究、临床诊疗、健康管理、新药研发等领域得到广泛应用,极大地推动了相关领域的发展。由于个人基因组测序数据具有碎片化、规模巨大、高度复杂等特点,对其分析面临巨大的挑战。基因组变异是指不同个体的DNA序列之间的差异,基因组变异决定不同个体之间表型的差异以及多种疾病。从个人基因组测序数据中准确地检测各种不同类型的基因组变异对于个人基因组测序在不同领域的广泛应用具有重要的意义。基于高通量测序数据的基因组变异检测问题已成为计算机科学和生物信息学领域的研究热点与难点问题。围绕针对不同类型基因组测序数据的基因组变异检测问题,虽然新的算法、软件与工具层出不穷,但现有的基因组变异检测方法仍存在准确率较低的问题,大大限制了个人基因组测序在不同领域的广泛应用。本文拟重点面向肿瘤—正常配对样本基因组测序数据和家系基因组测序数据,针对几种难于检测的基因组变异,研究相应的检测方法,提高检测准确率。本文的主要内容如下:(1)针对现有的基于reads深度信息的拷贝数变异检测方法对reads深度分布无法准确建模的问题,研究基于负二项回归的reads深度概率模型,有效处理reads深度分布的过离散问题,同时准确体现GC含量和Mappability对reads深度的影响。该模型可以应用于单样本基因组拷贝数变异检测、群体基因组拷贝数变异检测、肿瘤—正常配对样本基因组拷贝数变异检测、家系基因组拷贝数变异检测。(2)针对现有的肿瘤—正常配对样本基因组拷贝数变异检测方法无法同时检测生殖系拷贝数变异和体细胞拷贝数突变以及检测准确率较低的问题,研究基于隐马尔可夫模型的肿瘤—正常配对样本基因组拷贝数变异检测方法。该方法将肿瘤细胞和正常细胞在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于β—二项分布的等位基因频率概率模型和基于负二项回归的reads深度概率模型计算输出概率,且在输出概率的计算过程中利用了肿瘤样本的不纯净性和肿瘤细胞染色体呈非整倍性的特征;根据生殖系拷贝数变异的拷贝数状态转移和体细胞拷贝数突变的拷贝数状态转移计算输出概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出肿瘤细胞和正常细胞中均存在的生殖系拷贝数变异以及只有肿瘤细胞中存在的体细胞拷贝数突变。(3)针对单样本基因组拷贝数变异检测方法和群体基因组拷贝数变异检测方法在家系基因组测序数据上检测准确率较低的问题,研究基于隐马尔可夫模型的家系基因组拷贝数变异检测方法。该方法将一个三样本家系中所有样本在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于负二项回归的reads深度概率模型计算输出概率;根据孟德尔遗传和新突变事件两种遗传模式下的拷贝数状态遗传概率计算转移概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出遗传性拷贝数变异和拷贝数新突变。(4)针对现有的家系基因组新突变(SNV和INDEL类型)检测方法无法处理reads错误比对导致检测结果假阳性率较高这一问题,研究基于梯度提升的新突变过滤方法。该方法对常用新突变检测方法产生的结果进行过滤,在确保基本不损失敏感度的前提下,显著降低错误的新突变的数量。
其他文献
<正> 惰轮轴是我厂拖拉机、推土机、通井机等系列产品上的一种必需件,每年都生产较大批量。由于该零件有一φ108-0.0700.095偏心圆与其右端小圆 M27螺纹的偏心距为27.836±0.
[目的/意义]为企业知识库的质量控制提供参考。[方法/过程]分析国内外企业知识库的研究现状,从内容、管理、技术、用户体验与环境等角度分析影响企业知识库质量的因素。[结果/结
目的:分析布氏杆菌性脊柱炎的MRI检查及临床资料,以此提高临床对此类疾病的确诊和治疗方案选择。方法:随机选择2014年6月—2017年6月我院收治的15例布氏杆菌性脊柱炎患者作为
美籍华裔女作家伍绮诗的《无声告白》探讨了身份危机、人生成就、种族、性别、家庭以及个人道路等问题。小说中描写了两对母女,反映了她们三代人的生活。虽然两对母女的人生
<正>众筹是一种趋势,"筹投贷"模式是一种必要。群体加互联网,本身具备了很大的风险特性,但这不是阻碍其发展的理由。众筹有风险,但不众筹就得走老路过去的2015年,也是我国众
为了研究牛至香酚替代抗生素对育肥土黑猪生长性能和肉品质的影响,试验选取日龄一致、体重67 kg左右的育肥土黑猪120头(公母各半),随机分为3组,A组(金霉素组)饲喂基础日粮+50
目的探讨彩色蚕茧提取物——丝胶对2型糖尿病大鼠肾脏细胞外信号调节激酶(ERK)信号通路的作用。方法雄性SD大鼠48只,随机均分为4组:正常对照组、糖尿病模型组、丝胶治疗组和二甲
本文主要阐述了“体能”这一概念在国内外的研究进展,在归纳、总结的基础上提出自己对于“体能”概念的认识:体能是人体在先天遗传因素的基础上,通过后天有效的运动训练而获
我们当今所处的新时代,进一步强化村级党组织建设力度和水平,发挥农村基层党组织战斗堡垒作用,对推动农村经济、政治、文化、生态等领域进步,促进农村社会整体改革发展呈现崭
观察制剂的冻干结构及崩塌现象,测定由蔗糖、氨基酸和(或)Pluronic F68混合所构成体系的崩塌温度(Tc),进而研究崩塌温度的影响因素。利用冻干显微镜观察蔗糖溶液,测定不同制