单细胞数据分析中的机器学习

来源 :武汉大学 | 被引量 : 0次 | 上传用户:kxl_cqmu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞是生物体的基本单位,是研究人类生物学和疾病的关键,理解支配不同类型细胞生成的机制一直是生物学上的一个重大挑战。现在,随着单细胞转录组测序(sc RNA-seq)等先进技术的引入,生物学家具备了在单个细胞分辨率揭示不同类型细胞异质性的能力。在此背景下发起的人类细胞图谱计划(the Human Cell Atlas Project),旨在为我们提供每一种细胞类型的独特身份认证,一个细胞类型如何协同工作形成组织的三维图谱,所有身体系统如何相互联系的知识,以及关于图谱中的变化如何影响健康和疾病的见解。很自然地,如果我们将人类细胞图谱比作一本编目了人体所有细胞信息的辞典,我们亟需一个快速、准确和可靠的方法去查询这部辞典。本博士论文将机器学习技术应用到单细胞数据分析的完整流程,分别从数据理解、数据归约、算法设计、模型优化、模型评价和软件部署六个方面应对单细胞数据高维度、高稀疏和高噪声带来的挑战。最终提出了一个名为sc ASK的通用集成分类框架,用于高精度高可靠性地跨数据集细胞类型分类。本文的主要创新性工作集中在以下三个方面:1.基于矩阵自适应切片技术的结构化降维方法。从认知科学的角度分析分类和降维过程中存在的信息冗余和信息丢失现象,指出将二维数值矩阵拉伸至三维空间,再沿着Z轴方向切片为一系列二维二值矩阵,是一种有效的简化数据并保留结构信息的数据归约方法。首先根据原始基因表达矩阵的数值范围,选用线性变换或对数变换将数值范围压缩到适合切片处理范围;然后采用等间距阈值操作将原始基因表达矩阵处理成一系列二值切片矩阵;最后计算和排序切片间增量指数,确定最能表征结构信息的最优切片位点。这些最优切片位点对应的二值切片矩阵,尽管在维度上与原始基因表达矩阵没有变化,但在数值上得到了极大简化,有利于存储和计算,在空间上保留了原始基因表达矩阵在特定阈值上的表达模式,这是后续分类学习需要捕捉的关键信息。2.基于高维稀疏矩阵的差异化最近邻算法。机器学习中没有免费午餐定理(No Free Lunch Theorem)和奥卡姆剃刀原则(Occam’s Razor Principle)分别对分类模型选择和分类算法设计具有重要指导意义,模型简单并不等同于分类能力的低效,数据稀疏并不代表分类信息的缺失。首先选择特别适合基因表达数据多标签分类的最近邻算法(k NN),可以有效降低高稀疏sc RNA-seq数据带来的欠拟合风险,保证在训练集上低偏差;然后选择皮尔逊相关系数距离(Pearson’s correlation distance),杰卡德距离(Jaccard distance)和余弦距离(Cosine distance)作为搭配k NN的默认距离度量,三种距离度量都具有越稀疏越有效的优点;最后通过交叉验证(cross-validation)确定近邻数k,距离加权,交叉验证fold数等经验参数。二值切片矩阵提供了差异化的训练数据,三种适应于稀疏矩阵的距离度量保证了训练出的最近邻分类器具有一定的互补性,差异化最近邻算法从算法设计上保证了后续集成分类的有效性。3.基于索引模式切换的元分类器集成策略。机器学习中集成学习概念来自于“the Wisdom of Crowds”群体智慧的思想,即每个参与者的预测结果都带有各自的噪声,组合大量参与者的预测结果将有可能抵消这些噪声。首先在训练集和验证集以交叉验证的方式评估候选分类器的训练集精度(training accuracy),在测试集评估候选分类器的测试集精度(testing accuracy),考虑到测试集精度更能反映分类器的真实分类能力,所以在对两者进行加权平均时赋予测试集精度更多权重;然后对同一个切片位点训练出的三类分类器,在同一比例尺度上归一化各自的训练集精度和测试集精度的差异,作为对其泛化能力的追加评估;最后利用上述加权精度联合泛化能力的评价指标从候选分类器中选出预测偏差更低的元分类器,构建一个分类器索引矩阵,元分类器以局部最优和全局最优两种索引矩阵切换模式参与分类器的集成,降低最终集成分类的预测方差。在真实单细胞数据集上,这种被称为Switching的集成策略取得了显著成功,作为一种全新的集成策略丰富了集成学习的理论体系。本文在人类细胞图谱的大背景下,回到认知科学的起点,深入数据分析机理,注重算法原始创新,逐一解决了困扰sc RNA-seq数据细胞类型分类问题中的三个重大挑战:针对单细胞数据高维度特征,提出结构化降维方法;针对单细胞数据高稀疏特征,提出差异化最近邻算法;针对单细胞数据高噪声特征,提出索引模式切换集成策略。通过整合上述方法,成功开发了一个名为sc ASK的通用集成分类框架,在真实单细胞数据集上对比五个基线算法实现了最高分类精度,在数据随机缺失实验中对比三个竞争算法实现了最佳稳健性。尤其值得一提的是,在sc ASK命令行版本(sc ASKcmd)的基础上,本文采用Mathworks公司最新的App Designer技术,成功将数据分析,特征工程,模型调参,集成模式切换和分类结果可视化等多个命令行线性化流程优化为图形化可交互流程,开发了通用集成分类软件sc ASKapp,使之能够直接应用到包括单细胞甲基化数据、癌症基因表达数据、生物医学影像数据等更广阔的分类诊断任务。
其他文献
<正>蓑羽鹤是鹤家族中体型最小的一种。它们不仅个子小,还有独特的非常有辨识度的外貌特征:身体大部分呈蓝灰色,头、颈、胸部为黑色,眼后有一簇白色的细羽向后延伸,蓬松分垂,状若披发,故称蓑羽鹤。因体型娇小玲珑、举止娴雅、性情羞怯温柔,如闺中小姐,蓑羽鹤又被称为"闺秀鹤"。
期刊
肺动脉高压并非一种独立的疾病,而是由于心肺疾病、遗传、药物、血栓或不明原因导致的肺血管受损,并发展到一定程度,造成肺循环压力升高,继发呼吸、循环衰竭等临床表现的病理状态。肺动脉高压特殊的血流动力学状态加之妊娠引起的血流动力学变化,均显著增加了母体和胎儿风险。目前,国内外指南及共识在肺动脉高压女性患者妊娠相关问题处理方面的推荐或建议相对较少。因此,妊娠合并肺动脉高压患者能否妊娠,对其妊娠、分娩及产后
期刊
在中国实现“站起来”与“富起来”的历史目标并开启“强起来”的新时代之际,通过中国现代话语体系建设来争取话语权并提升文化“软实力”就成为当前社会主义现代化建设中的重要任务。话语体系是围绕特定主题并依据一定内在逻辑和分析框架而构建起来的概念、范畴和理论表述体系,是话语主体立场和逻辑的集中体现,它通过影响和塑造受众的知识、思维、观念和行为,形成了同现实的物质利益与权力相关联的话语权。语境、主体和文本是话
学位
"跨栏跑运动"是新时期小学田径运动的竞赛项目,能提高学生的身体素质,锻炼他们实际的体育技能。但由于小学生年龄较小,身体素质还不够强,各部位肌肉力量还不够,在进行"跨栏跑运动"时往往需要教师特别的引导。随着素质教育理念的不断深入,教师要结合新时期的体育课程,为学生提供有效的跨栏跑训练平台,提升学生各方面的身体素质。本文就从当前小学体育课堂中的跨栏跑训练出发,对该项目训练的方法和模式做几点分析。
期刊
在科学哲学史上,实在论和反实在论围绕“理论科学中基本实体是否真实存在”的问题展开过旷日持久的争论。结构实在论作为科学实在论的一支,努力推进理论科学中基本实体的结构进路,为科学实在论的发展做出了重要贡献。然而,物理世界的基本实体究竟是什么?科学哲学界甚至科学界并未形成一致认识。近年来,随着量子信息科学技术的发展,信息结构实在论和量子信息结构实在论应运而生,它们分别把信息和量子信息视为物理世界的基本实
学位
肿瘤微环境中的免疫组成与抗瘤治疗效果息息相关。当前,肿瘤组织内存在效应性免疫细胞丰度低、抗肿瘤免疫功能缺失、促肿瘤生长相关的负调节细胞丰度高等问题。针对肿瘤免疫微环境影响抗瘤治疗效果这一科学问题,本研究设计、构建了一系列基于细菌及免疫细胞的仿生和生物基材料,改善了肿瘤免疫微环境的组分,促进瘤内效应性免疫细胞浸润,激活并增强机体的抗肿瘤免疫效应,展现出较好的抗肿瘤免疫治疗潜力。本文第二章,基于铁基磁
学位
中国大陆构造环境监测网络(Crustal Movement Observation Network of China,CMONOC,简称陆态网)是我国“十一五规划”重大科技基础设施。采用了多种地球观测技术,如GNSS、VLBI、SLR、水准测量和精密重力测量等,能够有效对中国大陆的地壳形变、重力场变化、水汽含量、电子含量变化等的实时监测,具有重要的意义和应用价值。自1999年3月试运行到目前,已经
学位
有机发光二极管(OLED)由于具有视角宽、响应时间短以及柔性可弯曲等优异性能成为了目前最具发展潜力的新型平板显示技术之一。从其发光机理来看,OLED发光材料经历了传统荧光材料到磷光材料再到热活化延迟荧光(TADF)材料三个发展阶段。在外加电场作用下,OLED材料受激形成比例为1:3的单重态激子(25%)以及三重态激子(75%),在第一代传统荧光材料中,三重态激子无法通过辐射跃迁的形式回到基态,只有
学位
对于城镇这个“机体”而言,老旧小区就如同“细胞”,而红色文化则是“细胞修复”的重要营养来源,它的融入不仅让老旧小区人文环境得到改善,对社区发展和文化传承也有着重要意义。本文以宿迁市宿城区老旧小区为研究对象,探索红色文化在老旧小区改造中的应用,提出利用红色文化在小区公共设施中的表达,让红色文化更加有效地融入老旧小区改造,使老旧小区改造升级更有创新性和传承性。通过对老旧小区改造中融入红色文化的研究,增
期刊
<正> 氯对淀粉的氧化作用,早在1829年已报导过淀粉与氯或亚氯酸的氧化发应。1896年实现了工业化生产。使用氯气对淀粉氧化作用于1895年获得德国专利及1905年获得美国专利。对淀粉氧化变性产物的结构及性能
期刊