基于孤立森林和全变分的拷贝数变异检测方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：zhangxueyh

【摘要】

：

【作者】

：

于家傲

【出处】

：

西安电子科技大学

【发表日期】

：

2020年03期

【关键词】

：

第二代测序技术拷贝数变异孤立森林全变分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在第二代测序技术广泛应用之后,人类基因组测序数据以爆炸式的速度飞速增长。虽然第二代测序技术的广泛使用为相关研究累积了大量的测序数据,但是得到这些测序数据只是获取基因组中有效信息的基础,研究的最终目的是要发现这些碱基对的排列组合与个体表型和癌症疾病的相关关系。通过分析和研究基因组数据有助于人们了解人类基因的工作原理。第二代测序数据具有片段短,复杂度高等特点,这对基因组数据分析工作提出了更高的挑战。人类基因组的变异形态多种多样,变异的长度从单个碱基的水平到染色体水平不等,如何准确检测出变异类型以及相应的变异区域是基因组数据分析中的重点和难点。目前,针对不同的变异类型,需要利用基因组数据中的不同信息来进行检测,至今已有各种各样的检测算法被研究出来。在人类基因组的各种变异形态中,拷贝数变异被相关研究证实与癌症疾病具有密切的相关性。因此,本文则主要聚焦于拷贝数变异检测的相关研究中。在现有的针对单样本的拷贝数变异检测算法中,如果样本是高覆盖度和高肿瘤纯度的,这些算法已经能够取得不错的检测结果。然而,在低覆盖度和低肿瘤纯度下,这些算法在检测精确率,召回率和₁F分数等度量指标上表现较差,检测结果并不理想。本文主要针对单样本、低覆盖度和低肿瘤纯度的测序数据,设计相关拷贝数变异检测算法,研究如何在这些数据上给出较高的检测精确率和召回率,同时保证算法的计算效率。本文首先提出了一种基于孤立森林的拷贝数变异检测方法CNV_IF,该方法利用树模型的非线性映射关系以及集成学习算法的优点,有效地刻画了每个滑动窗中RD信息的异常性。该算法在训练的过程中,每个区域异常值的大小与RD值在样本中的含量和排序有关,与其绝对差值无关,有效地解决了拷贝数变异检测中的数据不平衡问题。由于CNV_IF在训练过程中未曾考虑相邻位置的相关性问题,本文进一步提出了一种结合了孤立森林算法和全变分模型的拷贝数变异检测方法CNV_IFTV,该方法结合了两者的优点,将滑动窗相邻位置的相关关系加入到模型中,同时去除掉了区间内部的噪声信号,使得异常分数作为RD值异常性的度量指标更加可靠。对于原始的孤立森林算法而言,阈值是提前设定好的,没有针对特定数据集进行优化。对于拷贝数变异检测问题,本文通过改进的最大类间方差模型来自动选取异常分数阈值。最后,本文还对各个变异区域的拷贝数值进行了估计。

其他文献

《人民日报》家庭联产承包责任制报道的叙事研究（1978-1988）

中国的改革开放,起源于农村。家庭联产承包责任制的确立是我国农村生产经营管理体制的突破口,该制度的推广和落实,打破了人民公社制度的局限,从政策层面上肯定农民拥有其自主管理生产的权利。1978年12月召开的党的第十一届中央委员会第三次全体会议,提出将工作的重心转移到经济建设上来。1982年1月发布中央一号文件中正式将“家庭联产承包责任制”九个字写入史册。至此之后,农民的劳作的热情被激发出来,粮食产量实

学位

家庭联产承包责任制《人民日报》新闻学

小学三年级音乐教学中舞蹈肢体动作的应用与研究

小学音乐课程课标中明确指出:“除了学习基本的歌曲与音乐知识,更要引导学生主动参与音乐实践。注重以音乐审美体验为核心,强调音乐课程的人文属性和对学生创造性潜能的开发,

学位

小学三年级音乐课堂舞蹈肢体动作

观赏石在明代写意花鸟中的艺术表现

观赏石作为传统文化中经典的审美符号之一,一直受到文人墨客的青睐,无论是在诗歌中,还是绘画中,都有无数讴歌与赏石有关的艺术创作。观赏石入画,是写意花鸟中创作的重要基石

学位

观赏石明代写意花鸟陈淳徐渭

航拍视像中车辆目标的检测与跟踪算法研究

近年来,全国机动车数量大幅增加导致了道路情况越来越复杂化。完善交通监测系统对保障道路安全具有重要的意义,而车辆检测和跟踪是交通监测的重要组成部分。相比于地面监测机

学位

卷积神经网络航拍车辆检测Faster R-CNN多目标跟踪

吴德旋《初月楼论书随笔》品评观研究

吴德旋作为清代中期的著名文人,“阳湖文派”的一员,在诗文等方面的成就是卓越的。他的书论《初月楼论书随笔》成书于1818年,是吴氏唯一也是留存至今的一部书法随笔集,其论书

学位

吴德旋初月楼论书随笔书法品评观

“微信谈”中英语教师的冲突性话语研究

教师话语研究对于教师发展有重要影响。目前虽然存在一些研究者们对于教师话语的研究,但是研究情境多设置在课堂内,对于发生在课堂之外的教师话语研究较少。本研究以一种普遍

学位

冲突性话语教师话语外语教师发展微信互动

复杂网络上的攻防博弈建模与分析研究

随着人类社会网络化进程的加快,现代社会对关键基础设施网络的依赖程度越来越高。这些关键基础设施不仅成为战时重要的军事目标,同时也面临着日益严峻的恐怖活动威胁。如何保

学位

复杂网络网络科学网络瓦解网络防护攻防博弈博弈论Stackelberg博弈纳什均衡

刑法中的指使他人作伪证研究

妨害作证罪中的指使他人作伪证这一构成要件行为与教唆伪证行为密切相关,具有单独研究的价值。在我国《刑法》中,与指使伪证行为有关的罪名主要是伪证罪和辩护人、诉讼代理人

学位

妨害作证罪指使他人作伪证伪证罪正犯化本犯既遂

明末劝善书中的自省观

本文选取明末《了凡四训》与《人谱》为研究重点,旨在研究《了凡四训》“立命之学”与《人谱》“成圣之学”中的自省观,探讨明末善书中对自省观念的不同阐释。明末内忧外患的

学位

明末善书立命观成圣之学自省

专利许可合同登记对抗效力研究

技术流通及其再发展之良性循环的重要路径之一,便是专利许可合同登记制度的完善。专利许可合同登记之效力性规范,是专利许可合同登记制度之核心制度。然而,无论从立法设计层

学位

专利许可合同债权物权化登记对抗

基于孤立森林和全变分的拷贝数变异检测方法

与本文相关的学术论文