基于LDA模型的单细胞RNA测序数据分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xw54073601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞RNA测序(Single-cell RNA-seq,scRNA-seq)能够测定数万、数十万个细胞所组成的样本中每个细胞的转录组状态,通过分析细胞之间的基因表达水平差异,可以发现具有生物学意义的细胞亚型,对肿瘤、免疫、神经科学等领域的研究有重要意义。由于在单细胞测序实验中,每个细胞的原始RNA含量有限,不同细胞间的基因表达特异性强,scRNA-seq数据往往存在噪声高和数据稀疏等问题。现有分析方法在应对上述问题时,缺乏针对性的优化。低信噪比、高数据稀疏性仍是scRNA-seq数据分析的巨大挑战。潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型是无监督学习的概率主题模型,通过在观测样本-特征属性的两层结构中引入隐变量“主题”,能够从海量数据中挖掘出潜在的隐含模式,在复杂、稀疏或具有噪声的数据集上具有明显优势。本文提出了基于LDA模型的单细胞RNA测序数据分析方法,研究了该方法在scRNA-seq数据集上的性能、效率以及模型结果从生物学角度的可解释性等问题,具体内容如下:本文构建了基于LDA模型的scRNA-seq数据分析流程,由于LDA模型具备自动挖掘数据集中隐含模式的能力,该流程省去了数据归一化和人工筛选基因等环节,首先经LDA模型训练得出细胞-主题关系以及主题-基因关系,然后基于每个细胞的主题概率向量,运用k-中心算法将所有细胞划分细胞簇,最后按照LDA模型结果,注释每个细胞簇的细胞类型。本文在7套人类肺腺癌细胞系黄金标准scRNA-seq数据集上比较了LDA模型与多种常见scRNA-seq数据分析模型的性能。结果显示,综合考虑准确性与召回率等一系列评价指标,基于LDA模型方法在全部数据集上的性能最好,在聚类不足和过度聚类间达到了良好的平衡。本文在两个真实的scRNA-seq数据集上,应用LDA模型开展了实证分析。第一个数据集是人类黑色素瘤数据集,该数据集的分析结果表明LDA模型不仅能将来源于不同患者的恶性细胞和属于不同细胞类型的基质细胞都区分开,还能识别肿瘤浸润性T细胞的亚群,这说明LDA模型可以将同一数据集中数量差异大且具有多个水平功能特有化的细胞类型同时识别出来。第二个数据集是人类胚胎胸腺发育数据集,该数据集的分析结果表明基于LDA模型结果可以重建传统T细胞分化轨迹。此外,两套数据集都证实了LDA模型具有准确发现细胞类型相关Marker基因的能力,从而实现对细胞类型的注释。本文运用多线程的LDA软件包实现scRNA-seq数据分析,并生成大规模scRNA-seq仿真数据集测试了本文方法的计算时间和计算效率。测试结果表明本文方法相比于单线程实现的效率大幅提高基于LDA模型的单细胞RNA测序数据分析方法在大规模scRNA-seq数据集中具有可用性。
其他文献
随着信息技术的飞速发展,电磁污染愈来愈严重,防治电磁污染的主要手段就是发展电磁屏蔽材料,反射和吸收是其中的两种主要实现手段,而吸波材料因具有绿色不会导致二次电磁污染的优势而备受瞩目。在众多的吸波材料中,碳材料具有轻质、多极化、介电性能可调的优势,是近年来吸波领域研究的热点材料。但是,在之前的研究中,碳材料往往制备成型方法复杂、成本较高,同时,由于吸波机理单一,碳材料的有效吸收带宽较窄,因此限制了碳
在实际工程应用中,相比于传统的弹塑性材料,当粘弹性材料受到外载荷作用时,材料响应不仅取决于载荷大小,而且与加载时间相关,例如:混凝土、高聚合材料、高应变率下的金属材料等。对于这种具有弹性性质和粘性性质的粘弹性材料,弹性力学没有考虑时间效应的影响,因此不能精确地描述其力学性能。近些年来,如何合理地描述粘弹性材料的力学性能成为研究热点,特别是诸如混凝土等广泛使用的具有典型多尺度特征的材料。鉴于此,本文
新媒体时代,中医药漫画作为对青少年产生深远影响的内容载体,对我国中医药文化的传播起着至关重要的作用。本研究基于对40部中医药题材漫画读者评论的统计分析,从不同维度探究中医药漫画出版物的文化传播效果并为这类题材选题的出版献计献策。
石墨烯(Graphene,Gr)具有优异的力学性能、导热性能、导电性能,是理想的复合材料增强体。粉末冶金是常用的制备石墨烯增强金属基复合材料的方法。由于球磨过程和原位自生过程中中石墨烯会产生较多的缺陷,导致了其性能的下降。因此,本研究通过分子动力学模拟的方法模拟了缺陷修复的过程,并采用化学气相沉积(CVD)以及等离子体增强化学气相沉积(PECVD)的方法对石墨烯中的缺陷进行修复工艺的探索。本文模拟
藻蓝蛋白(C-phycocyanin,C-PC),一种天然生物可直接食用且具荧光的蛋白。因其独特的物理生物特性而被广泛应用于食品、保健、医疗、生物靶向治疗等多个方面。国际上多将藻蓝蛋白的纯度划分为食品级、分析级、试剂级三个等级,其纯度决定了价格,纯度越高则应用价格越高,寻找更为高效、简捷、绿色的藻蓝蛋白分离纯化方法是具有重要的理论和现实意义的。低共熔溶剂(Deep Eutectic Solvent
形状记忆聚合物(Shape Memory Materials,SMP)是一种新型智能材料,可以在外界刺激下发生变形,且形状可控。由于驱动方式多变、形变量大、成本低等,其在诸多领域都取得了非常广泛的应用。生物质材料不仅有着环保、来源广泛、生物相容性好的优势,其性能也非常独特,比如降解性强、质轻、强度高等,经常用于制作复合材料。基于此,本文将骨外固定器作为应用背景,为克服现有固定器笨重、环保性差、透气
本文基于低能球磨与原位自生技术,首次选用TC18钛合金为基体,TiB2作为B源,成功制备了低含量(≤2.0vol.%)TiBw/TC18网状结构复合材料。利用热挤压变形与热处理,进一步对复合材料的组织进行调控。研究了不同状态下复合材料的拉伸性能与断裂机制。利用光学显微镜(OM)、扫描电子显微镜(SEM)、电子背散射衍射(EBSD)以及透射电子显微镜(TEM)对不同状态、不同增强体含量的材料进行组织
BAS微晶玻璃是一种具有较高的机械强度、硬度、耐磨性以及热稳定性的先进陶瓷材料,具有较高的军事和民用价值。但是其较低的韧性限制了其应用,因此对于这种材料的研究集中在强韧化处理上。本文从晶须增强和纤维增强两种强韧化手段出发,以BAS微晶玻璃为基体制备两种复合材料,建立内部结构与宏观力学性能的响应关系,研究其增韧机理。首先是采用溶胶凝胶法结合碳热还原氮化法在BAS基体内部原位生成Sialon晶须,制备
一价铜盐催化的炔基-叠氮环加成(Cu AAC)反应具有“近乎完美”的成键性质,目前已经在化学、生物学和材料科学中得到了广泛的应用。近年来研究人员开发了多种Cu(Ι)均相和非均相催化剂催化Cu AAC反应,包括Cu(Ⅱ)/还原剂、Cu(0)/氧化剂、Cu(Ι)/辅助配体以及Cu(Ι)化合物。均相催化体系中Cu(Ι)催化剂与最终产品难以分离,造成经济与环境问题,阻碍其更进一步的应用。非均相催化剂具有易
现行《公路沥青路面设计规范》中提出将动态模量作为其沥青路面结构设计参数,其设计水平二取值可采用经验预估模型进行取值。但是由于沥青混合料所使用沥青或者级配类型具有一定的地域特性,规范水平二中的半经验预估模型对沥青种类提出了适用于道路石油沥青和常规级配的沥青混合料的前提条件,因此该模型在吉林省的实际适用性有待评价。因此提出一种参数测定简单,且具有针对地域特征的用于指导沥青路面设计的动态模量预估模型,具