基于类别标签的单细胞转录组批次效应校正方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mhyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞转录组测序技术是分析单个细胞内基因表达水平使用最广泛的技术。随着单细胞转录组测序技术的快速发展和测序成本的逐渐降低,大量的单细胞转录组数据随之产生,这鼓励了一些超大规模生物项目的成立,如小鼠和人类的细胞图谱。该项目致力于构建一个囊括生物体内几乎所有细胞的参考图谱,但受限于目前的生物技术,不可避免地要求分批生成数据。因此,近年来集成不同批次的单细胞转录组数据成为了生物信息学领域内的热点问题。与单一数据相比,集成后的单细胞转录组数据具有更多的细胞数量,从而有助于识别常见和罕见的细胞类型,并能更精确地定义细胞身份。然而,分批生成的数据可能因为不同的研究人员、不同的时间、不同的测序平台等因素导致批次效应,使各个批次间的基因表达存在系统性差异。这种差异可能会掩盖潜在的生物学特征或在数据中引入虚假的结构,导致后续分析得到误导性结论。因此,集成多个单细胞转录组数据集首先需要校正不同数据集中由批次效应引起的变化,如何使用计算的方法校正跨多个数据集分析中的批次效应是生物信息领域亟待解决的问题。目前已有一些单细胞转录组批次校正方法。其中fast MNN、Seurat3、BBKNN方法对数据具有很强的假设:细胞间批次效应的差异应远小于不同细胞类型间的生物差异。但由于不同的数据集有不同的细胞类型和批次效应,使得一些数据集不满足这种假设,从而错误地进行批次效应校正,影响结果的准确性。Harmony方法通过迭代聚类不断地最大化类中的批次多样性来校正批次效应,但类中的一些批次可能没有该类细胞。从而忽略真实的生物差异,过度集成不同批次,影响结果的准确性。sc Merge方法先对每个批次的数据进行聚类,随后在细胞簇之间完成批次效应校正。该方法结果的鲁棒性和准确性有所提高,但计算时间长,占用内存大,无法在较大规模的单细胞数据集上运行。针对现有方法对数据存在强假设、过度集成等问题,影响了批次效应校正结果的准确性。本文利用不同批次的细胞类别标签,无需假设细胞间批次效应的差异远小于不同细胞类型间的生物差异。随后通过不同批次间类别标签互相匹配的细胞簇的基因表达差异准确识别批次效应,解决单细胞转录组批次效应结果不准确的问题。方法主要分为以下几个步骤:(1)识别各个批次数据集的类别标签;(2)在各个批次间进行类别匹配;(3)在匹配上的类别中进行局部批次校正,没匹配的类别进行全局批次校正。最终得到一个批次效应校正后的数据集用于后续分析。为了验证本文方法的有效性,选取批次间细胞类型完全匹配、批次间细胞类型不完全匹配、多批次以及大规模批次等四个场景共计六个数据集,将本方法与现有的fast MNN、Seurat3、Harmony、LIGER、sc Merge以及Scanorama方法进行比较。通过可视化、调整兰德系数、平均轮廓宽度以及局部逆辛普森指数这四个评价指标从不同批次的细胞混杂程度和批次校正后的细胞类型纯度两方面对上述方法的结果进行分析。实验结果表明:本文方法在四种不同的单细胞转录组批次效应校正场景下都较为准确地完成了批次效应校正任务,具有较高的批次校正后的细胞类型纯度。如:本方法在c LISI指标上始终拥有最佳表现;在人外周血单核细胞数据集的可视化上本方法成功地将极为相似的Monocyte细胞亚型分离,而其它的现有方法则全部失效。
其他文献
固体氧化物燃料电池是一类以使用固体氧化物作为电解质为特征的燃料电池,相比于其它类型的燃料电池,它们的工作温度较高(600℃到800℃),因此不需要昂贵的铂金属作为催化剂材料,不易受到催化剂一氧化碳中毒的影响,然而较高的工作温度使其在成本和安全方面阻碍了商业化进程。为了进一步降低固体氧化物燃料电池的工作温度,就需要研发出新型的在中低温下拥有高氧离子电导率的电解质材料,同时由于工作温度降低导致极化电阻
学位
目前,我国各项基础建设已经逐渐完善,能够为人民提供全方位的服务。大型公建及综合性医院是为人民群众提供基本医疗服务的重要存在,是城市建设中的一项重大的公共基础建筑。然而,大型公建及综合性医院的运行与机电工程密切相关,许多检测项目都要靠机电设备来进行。因此,本文就重点分析了大型公建及综合性医院机电安装施工技术,并对技术管理措施进行了探讨,希望能对相关人员开展工作提供帮助。
期刊
癌症的早期诊断和高效治疗是预防癌症和提高患者生存率的关键。因此,发展高效的癌症生物标志物分析方法和治疗策略具有重要的意义。金属有机框架(MOFs)是一类由金属离子与有机配体形成的多孔配位纳米材料,具有比表面积大、负载效率高、易功能化修饰、可生物降解等优点,在生物标志物检测与治疗领域展现出广阔的应用前景。然而,由于MOFs本身功能的局限性,迫切需要对其进行功能化修饰,以发展具有识别、治疗以及疗效监测
学位
随着科学技术的不断发展和信息技术的不断更新,互联网和移动通讯等技术的高度普及等产生了海量的数据,大数据已成为当今最重要的时代特征。如何充分利用这些海量数据催生了数据分析和数据挖掘。子空间聚类是数据分析和数据挖掘领域的关键技术之一,是实现高维数据聚类的有效途径。本文主要研究了面向子空间聚类和CT图像重建的稀疏、低秩方法。在重加权稀疏子空间聚类的基础上,利用数据间几何关系引导建立重加权的稀疏子空间聚类
学位
第三次科技革命以来,人类社会步入了信息爆炸、数据海量增长的多源大数据时代。在人类社会生活中存在海量的按一定次序关系排列的序列数据,如文本数据,语音、图像、视频、基因序列等等,而如何对高维复杂序列数据的序列关系进行分析并有效利用,引起了研究学者的广泛关注。基于深度动态模型的序列建模方法,通常以数据为驱动,对数据的统计特征及其它相关特征进行有效提取,并根据历史观测数据建立对未来数据进行建模与预测。在现
学位
目的:探究不同温度膀胱冲洗液在良性前列腺增生(BPH)患者经尿道前列腺电切术(TURP)术后并发症中的干预效果。方法:选取2019年1~2020年6月行TURP的良性前列腺增生患者153例,按照冲洗液温度采用临床随机对照试验法将其分为A、B、C三组,各51例。A、B、C组的冲洗液温度分别为18~20℃、22~25℃以及35~37℃,比较三组患者冲洗前后的生命体征、冲洗期间膀胱痉挛情况、各时段冲洗液
期刊
当高超声速飞行器在临近空间飞行时,飞行器周围空气在急速压缩冲击下形成激波并产生高温,高温使气体电离,形成包覆飞行器表面的等离子体,称为“等离子体鞘套”。等离子体鞘套会对电磁波产生散射吸收,使电磁波出现大幅衰减和相位偏移,即寄生调制效应;同时等离子体鞘套具有高动态、快时变特性,也会影响高超声速飞行器遥测信道。现有的遥测调制解调方法难以适应高超声速飞行器遥测信道,需要研究相应的调制解调方法以及联合解调
学位
学位
深度神经网络在图像分类、检测以及动作识别等多种视觉任务上取得了巨大的成功。但是由于现有深度神经网络结构复杂,计算复杂度高,因此难以在移动设备和计算能力受限的设备上直接应用。因此,神经网络剪枝,作为一种模型轻量化和计算加速工具,近年来开始受到来自学术界和工业界的关注并被广泛应用于实际的深度模型部署应用中。深度神经网络剪枝算法的核心是通过剪除冗余的滤波器参数以获得紧凑的深度神经网络,现有的深度神经网络
学位
随着目标隐身性能的不断提升,传统的先检测后跟踪预警体系难以对上述目标进行有效检测和稳定跟踪。多帧检测前跟踪技术利用多帧量测信息的能量进行非相干积累,能够有效实现微弱目标的检测和跟踪。然而,随着威胁目标的分布、运动特性朝着多批次、高机动以及集群化等方向发展,现有的多帧检测前跟踪技术面临多目标检测运算复杂度高、虚假目标数量多、机动目标检测概率低、跟踪精度差和集群目标检测分辨率低等问题。针对上述问题,本
学位