一种单细胞转录组数据的快速聚类算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wzy1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
scRNA-seq(单细胞RNA测序)作为一种能够将测序分辨率精准到个体细胞的测序技术,对揭示细胞异质性具有重要作用,细胞身份的识别也对下游的分析有很大贡献。对单细胞进行聚类,主要是通过对单细胞基因表达的相似性进行识别。单细胞数据具有高维度、高稀疏性的特点,针对这些特点,已经有大量的单细胞聚类算法产生,在聚类的准确度方面已经取得了很好的成果。但随着单细胞数据规模的不断增长,对单细胞数据聚类算法提出了更高的要求,不仅需要聚类准确度,更需要提高聚类的速度,降低对计算资源的消耗。本文提出了一种单细胞转录组数据的快速聚类算法:基于多观测点UNIC的单细胞聚类算法,该算法提高了现有单细胞聚类算法的速度。多观测点UNIC是对一种快速无参的聚类算法UNIC(Unparameter Ized Clustering)的改进算法,多观测点UNIC通过在单次运行中进行多次观测点的选择,避免了UNIC中一次聚类只选取一个观测点所产生的“环效应”,然后结合单细胞数据的特点,对细胞相似度度量方法进行了研究,选取了相关系数作为细胞相似度度量方法,提高了算法的准确度以及鲁棒性。在此基础上,本文提出了基于多观测点UNIC的单细胞聚类算法,在数据预处理阶段对单细胞数据进行质量控制,然后进行基因选择来进行特征提取,最后通过多观测点UNIC对处理后的数据进行聚类。针对大规模单细胞数据集,结合基于多观测点UNIC的聚类算法与基于采样的大规模单细胞数据聚类的计算框架,本文设计了大规模单细胞数据的聚类算法,该算法通过采样将一部分比例的单细胞数据用于聚类分析,然后对未采样的单细胞数据进行分类分析,并将聚类分析的结果作为样本标签应用于分类过程。在分类过程中,将每个细胞与某个细胞类型观测点的相似度作为其与该细胞类型的相似度,然后通过每个细胞类型的最小类内相似度和最大类外相似度进行比较,以决定其细胞类型。在实验论证方面:对于基于多观测点UNIC的单细胞聚类算法,除了与多种聚类算法进行比较,以验证该算法的准确度和时间效率以外,分别在多个单细胞数据集上,研究了不同相似度度量方法对聚类结果的影响,基因选择的数量,还有算法的鲁棒性研究,以及降维对聚类结果的影响。对于本文设计的大规模单细胞数据聚类算法,在大规模单细胞数据集上进行了实验验证,实验结果表明,本文所提出的算法优于比较的算法。
其他文献
由于点云几何信息丰富,基于点云的语义分割算法受到越来越多的关注,并且在自动驾驶、计算机视觉和机器人等领域都得到广泛的应用。目前,点云语义分割算法主要以深度学习为基础,并且取得了一定的进步。然而,由于点云数据规模庞大以及网络模型设计复杂,网络的训练周期过长。同时,点云数据自身的无序性及无结构性等也使得网络对其局部几何信息的利用变得困难,导致分割精度有限。为此,本文对点云数据进行稀疏处理,提出对应的图
学位
脑疾病严重威胁着现代人的身体健康,医学影像技术可以提供大脑的结构和功能信息,对于各类脑疾病的诊断和研究都具有重大意义。本文的研究课题来源于与唐都医院神经外科联合研究的项目,包含脑肿瘤图像分割算法设计和药物成瘾患者在脑深部刺激下的脑电分析实验两个任务,主要研究内容和创新点如下:(1)提出了一种基于网络自调节策略的脑肿瘤分割算法。由于脑肿瘤中的水肿区域体素数量远远多于核心区域,不同肿瘤区域的体素数量极
学位
近年来,随着深度学习的发展,利用深度神经网络对手写体文字进行风格识别相较于传统的图像处理方法具有识别速度更快、准确率更高的优势。当前主流的离线手写体笔迹风格识别方法在针对中文、英文数据集时,需要基于段落、页面级的含有较多文字的图像进行风格识别,才能达到令人满意的效果。但是,在公安、刑侦和司法等领域中可用文字样本较少、内容差异巨大等应用场景时,当前方法识别效果非常不理想。面向实际中存在的这个问题,本
学位
集中供暖系统在中国北方城市是十分常见的,在寒冷的冬天可以持续为城镇楼宇提供热量。随着物联网,大数据等技术的发展,供热公司在供热管道和小区住户的室内安装温度传感器,实时监测整个供热系统的温度变化情况,一方面可以评估现有供热策略的好坏,另一方面通过采集到的历史数据可以对未来的室内温度进行预测,可以更好的对供热温度进行控制,从而减少热损失,达到节能减排的效果。现有的时序预测模型依赖比较充足的训练数据,而
学位
微服务架构已成为互联网发展的关键技术,给软件生产关系带来革命性的发展,它将大型复杂软件系统分解为许多松耦合的微服务,对分解后的微服务通过服务治理技术进行管理,有效提高系统的可扩展性和稳定性。但随着系统的演进和微服务拆分粒度的细化,微服务的规模呈爆炸式增长,出现服务发现时延长、服务容错效果差、服务维护成本高等问题,导致服务治理技术成为微服务架构系统发展的瓶颈。本文主要研究微服务架构体系中服务治理技术
学位
作为数据分析中的一项基本功能,时空范围查询能够给数据分析者提供更丰富的分析手段。空间范围查询功能是对分布在各个区域内数据进行分析的一种手段,时间范围查询功能则能够对于特定时间段中的数据进行查询。然而,目前很多数据中包含用户的敏感信息,在查询的过程中可能会造成用户的隐私泄露,因此导致很多用户不愿分享自己的数据。目前虽然有工作对隐私保护的范围查询进行了研究,但现有的隐私保护的空间范围查询方案都只支持规
学位
电子信息产业的飞速发展对半导体器件的性能提出了更高的要求,例如,大功率、高速半导体器件要求具有低的导通电阻、高的反向击穿电压和较快的响应速度。除了这些基本特性要求,非常规极端环境下(高温、高压等)的应用场景对器件可靠性及寿命提出了更高的要求。以GaN和Si C为代表的第三代宽禁带半导体材料具有高禁带宽度和高迁移率的优势,所制备的大功率器件在高温、高压等极端环境应用上表现出高性能。与Si C材料相比
学位
科技期刊作为科研成果的重要载体,是体现科技创新成果、传播科学方法和服务社会发展的重要平台。尽管一些代表性期刊如《遥感学报》《光子学报》在互联网媒体融合时代取得了转型升级的良好效果,但总体上,我国科技期刊发展还是呈现“小、散、弱”的形态。我国科技期刊的传播渠道大多还停留在自建网站或App的阶段,访问量不尽如人意。如何利用计算机前沿技术,整合现有的期刊媒体资源,帮助期刊社寻找受众,从期刊社角度实现论文
学位
在高频高压大功率等电子电力器件领域,Ⅲ-Ⅴ族氮化物半导体因拥有较宽的禁带宽度、高击穿电场和极化效应等优点,得到了广泛的应用。在Ⅲ-Ⅴ族氮化物半导体中,GaN材料和器件的研究现最为成熟,而现如今氮化铝(AlN)材料和器件的研究方向主要集中在制备工艺,AlN器件方向尚有些许空白。其中的铝镓氮(AlGaN)可视为GaN与AlN的过渡材料或二者的三元合金化合物,因此其禁带宽度、击穿场强等各项性质可根据Al
学位
氮化镓(GaN)作为宽禁带半导体材料,具备超高的电子迁移率,且介电常数小、击穿电压大,因此在集成电路领域内成为研究热点,有着广泛的应用前景。尤其是AlGaN/GaN SBD,因其较高的开关频率、较低的开启电压、以及极化效应产生的高浓度二维电子气,使其有望成为高性能直流(DC)和射频(RF)功率二极管的理想器件[1]。尽管上述提到的二维电子气沟道中电子理想迁移率能达到2000 cm~2/(V·s),
学位