单细胞测序数据的噪音分析及拷贝数检测算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:z2901153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异是由基因组发生重排而导致,一般指长度为1 kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。拷贝数变异是基因组结构变异的重要组成部分,其变异率远高于SNP,是人类疾病的重要致病因素之一。传统上检测拷贝数变异的技术有比较基因组杂交及荧光原位杂交等,但这些技术都因其分辨率有限、或通量小、成本高等问题而在实际应用中受到限制。于2005年诞生的高通量测序技术以其通量高、总体成本低、信息产出高等突出优点,迅速应用于生命科学研究的各个领域,如de-novo测序、RNA测序、表观遗传学等。在单细胞测序技术面世以前,高通量测序技术主要用于组织测序,即对多个细胞测序,其忽略了细胞基因组间的异质性,测序结果为多个细胞的平均结果。随着单细胞测序技术的到来,对单个细胞的拷贝数变异进行检测成为可能。单细胞测序是对单个细胞的DNA或RNA进行测序,能够揭示单个细胞的基因表达状态和基因组变异概况,可反映细胞间的异质性,其在肿瘤、发育生物学、神经科学等领域的研究发挥巨大重用。单细胞测序技术主要包含单个细胞分离、全基因组扩增、测序文库构建及测序这三大部分,其与传统组织测序的主要区别在于全基因组扩增过程,该过程带来扩增偏倚、覆盖度等问题,使得单细胞测序结果有不同于组织测序的噪音。本文首先介绍拷贝数变异及其检测技术,接着介绍测序数据的预处理,以及对单细胞测序数据的噪音进行分析,最后针对单细胞测序数据的特性提出拷贝数变异检测模型,并通过实验评估。该模型使用负二项分布对测序数据的读深度信号进行建模,引入平滑性和稀疏性的限制,把拷贝数变异检测问题转换为二次优化问题,并基于交替方向最小化方法进行模型求解。经实验验证,对于单细胞测序数据的拷贝数变异检测,该模型表现优良,且具有鲁棒性高的优点。本文将预处理及检测模型部署于BGI online,以便研究人员使用。单细胞测序正成为生命科学研究的一个热点,本文在数据层面上探究了其噪音特点,且提供一种有效的拷贝数变异检测方法,有望促进其数据分析的发展。
其他文献
中国舞蹈源远流长,它和古老的中华文明同生共存,中华五千年的历史,每走一步,都有舞蹈的足迹。中华文明因舞蹈而多姿多彩,熠熠生辉,舞蹈又以它独特的魅力彰显着中华民族的生命与活力
<正>突发安全事件伴随着人类文明的每个时代,它让社会秩序受到挑战,让道德伦理、行为准则经受考验,让体制、观念、管理等等接受洗礼。尽管人类已经经历了许多突发事件,但每次
2015年7月4日发布的《国务院关于积极推进“互联网+”行动的指导意见》标志着“互联网+”从概念正式上升为国家行动。茶作为最具地方特色的传统农业产品之一,急需通过互联网技术
报纸
于2014年春季(4月)、夏季(7月)、秋季(9月),对宁夏沙湖8个采样点进行了采样调查。对沙湖浮游动物的种类组成、群落结构及物种的多样性进行了研究。在采集的同时测定了水体的
提高思想政治教育工作的成效与把握思想政治教育接受主体的接受规律密切相关.考察思想政治教育接受主体的接受机理与接受过程,分析接受机理中的反映、解读、筛选、整合、化解
介绍了国家级文化和科技融合示范基地的认定背景与发展现状。通过检索CNKI及相关蓝皮书文献,对国家级文化和科技融合示范基地现有研究文献进行分析发现:对基地的建设现状、存
DBAE美术教育理论是艺术教育概念上的变革,属于人文学科领域,旨在培养学生健康的艺术理解力,标志着对传统的继承和创新,是从现代到后现代的一个过渡。现在DBAE理论定义的四种
近年来,我国多地区雾霾频发,对人们的健康和社会发展造成了严重的影响。作为雾霾中危害最大的成分—PM2.5能够长期悬浮在空气中,被吸入到人体中容易引起心血管系统和呼吸道等一系列疾病。当雾霾发生时颗粒物浓度增加会引起大气水汽的变化,进而会引起对流层延迟的变化。GPS探测大气水汽有着实时、不受天气影响,精度高等优点。因此利用GPS技术建立高效的PM2.5预测模型对于雾霾的预防和治理有着极其重要的意义。本
本文针对机载双天线斜视干涉SAR成像过程分析了主辅天线回波信号距离历程偏移特性、方位多普勒频率特性及其与正侧视系统下的区别;讨论了基于扩展CS算法(ECS算法)距离向自配准
<正>随着农发行业务领域不断拓展、CM2006业务系统升级完成,将在办贷理念、办贷流程、风险控制等方面产生一系列深刻的变化,全体员工只有完善知识结构、提高操作技能,才能胜