基于聚类集成的细胞类型识别方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangduanhua870505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来单细胞测序技术的进步使得对不同组织类型和不同细胞状态的基因表达在单细胞水平上的高通量获取得以实现,这令生物学家能够在细胞群中剖析细胞的异质性,也因此催生了许多单细胞方面的工作。其中,通过单细胞数据识别细胞类型是很多研究工作的基础,细胞类型识别的精准与否对下游工作的分析具有至关重要的作用。传统识别细胞类型的方法受单细胞测序技术的限制,仅能基于单细胞转录组测序数据进行分析,当然这些丰富的研究工作为单细胞多组学数据分析打下了坚实的基础。现阶段随着单细胞并行测序分析技术的发展,获取单细胞多组学数据成为可能,这些数据使得研究者们可以从多个组学的角度对细胞状态进行描述。
  以往在批量测序数据上有大量的工作应用集成的思想来识别癌症亚型,而单细胞多组学并行测序技术的发展使得我们可以结合单细胞多组学测序数据,集成地对细胞的状态进行刻画。因此集成思想在单细胞数据上的应用具有重大意义,一种基于集成的单细胞数据分析方法呼之欲出。本文提出一种基于聚类集成的细胞类型识别模型。该模型不仅能应用于单细胞转录组数据,还能集成单细胞多组学数据进行细胞类型的识别。本文所提出的模型共包含三个模块,分别为独立聚类模块,基础划分筛选模块和加权CSPA集成模块。其中独立聚类模块对数据集分别采用单细胞一致聚类算法,结合t-SNE降维的k-均值聚类算法,基于多核学习的细胞类型识别方法,k-均值聚类算法和谱聚类方法进行聚类,对每种方法的聚类结果,在基础划分筛选模块中利用三种聚类内部评价指标对聚类结果进行筛选,并根据评价指标值为基础聚类结果添加权重,在加权CSPA集成模块中对基础划分进行集成,并计算样本相似性,最后通过谱聚类得到最终的细胞类型识别结果。
  本文将该模型在单细胞转录组数据上进行应用并提出基于聚类集成的(ClusterEnsemble Based,CEB)细胞类型识别方法。在五个单细胞转录组数据集上,将集成后的细胞类型识别结果与集成前每种单独聚类方法的细胞类型识别结果进行比较,发现CEB方法在准确性和鲁棒性上均优于单独的细胞类型识别方法。同时,本文通过调整集成的独立聚类方法,比较了标准CEB方法与不完全CEB方法,无筛选CEB方法、随机CEB方法与不加权CEB方法的结果,发现集成的聚类方法的变动对结果的影响幅度不大,这说明CEB方法具有较好的鲁棒性;同时标准CEB方法的结果优于无筛选CEB方法和不加权CEB方法的结果,这验证了基础划分筛选和加权CSPA集成的确能提高聚类结果的准确性。
  本文将该模型在单细胞多组学数据上进行应用并提出基于多组学聚类集成的(Multi-omics Cluster Ensemble Based, MCEB)细胞类型识别方法。在Anger数据集上的实验表明MCEB方法在多组学数据上的细胞类型识别结果优于仅使用单一组学方法和其他变体方法的结果,这说明MCEB方法在多组学数据上仍有较高的准确性和鲁棒性。在Clark数据集上的实验表明MCEB方法具有识别新型细胞类型的能力,因此MCEB方法为单细胞多组学集成识别细胞类型提供了一定的启示作用。
其他文献
随着活动场所和环境智能化水平的提高,人们对基于位置的服务需求越来迫切,室内定位技术研究受到了科学家和工程界的广泛关注。射频识别(Radio Frequency Identification, RFID)是物联网应用的关键技术之一,特别是借助RFID可同时获取物体的身份和位置信息,基于RFID的室内定位技术成为研究人员和业界的热点研究方向。  指纹法是主要的室内定位方法之一,具有不受多径效应影响、无
GaN基电子器件在光电子和射频大功率器件领域有着巨大的应用前景,但是目前生长的GaN材料仍有较高的缺陷密度,GaN基器件也存在很多可靠性问题。本文的研究重点是利用超临界流体技术来修复GaN材料和AlGaN/GaNHEMT器件中的缺陷,提高GaN材料及其器件的性能。另外本文还进行了AlGaN/GaNHEMT器件的单步工艺开发。本论文的主要研究工作总结如下:  (1)用磁控溅射10nmCr当做电子传导
学位
随着人工智能、大数据、云计算等领域的快速发展,业界对处理器性能的需求不断增长,片上系统(SoC, System on Chip)中IP核的数量不断增加,片上网络规模的也随之不断增加,片上网络的通讯功耗,网络拥塞等问题,使得片上网络性能迅速降低。近年来,面向片上网络优化研究已成为了相关领域的研究热点。因此,本文以片上网络优化问题为研究目标,开展了片上网络映射算法、片上网络优化方法和片上网络仿真器方面
学位
微波固态源器件的研究已成为大功率器件研究的主要内容之一,作为两端口器件中射频振荡输出功率最高的IMPATT器件,GaN基IMPATT二极管是目前国际上非常推崇的最具潜力的太赫兹功率辐射源器件,受到越来越多的重视和深入研究。目前,国际上还没有关于GaN基IMPATT二极管实验研究的报道,但大量的理论模拟结果表明,宽禁带半导体GaN是未来制造IMPATT器件的极具潜力的材料。在此背景下,进一步明确Ga
重大科学技术的发展成熟总是给人类社会生活带来重大的变革,一直以来,路灯都是仅以照明为目的,但随着科技日新月异的同时,尤其物联网技术成为现实之后,人们意识中的传统路灯已经满足不了建设智慧城市、智慧社区的要求。传统路灯大多数是采用手动、光照、时钟控制以及半夜的超大功率运行,不能按需调节亮度,不仅造成能源的浪费而且降低了其使用寿命。此外,路灯分布分散,缺乏有效的定位手段,给维护管理增加了难度,浪费了社会
随着高速无线通信技术的快速发展,毫米波无线收发机中锁相环型频率综合器的研究变得愈发重要。分频器是锁相环型频率综合器中工作频率最高、功耗最大的模块之一,它的优劣直接影响了频率综合器与收发机信号源的整体性能。在分频器中,注入锁定分频器凭借其工作频率高、功耗小的特点,受到了广泛的关注。然而注入锁定分频器的锁定范围较窄,限制了无线通信系统的性能。因此,本文对宽锁定范围注入锁定分频器的设计技巧进行了深入研究
近年来,CMOS图像传感器凭借其噪声小、集成度高、成本低等特点,市场份额已经赶超CCD图像传感器,被广泛应用在各种成像领域。对于CMOS图像传感器来说,像素的性能对传感器的成像质量起着最为关键的作用,故本文针对像素的量子效率、满阱容量、暗电流和电荷转移特性,进行了像素的设计和优化,并重点研究了强曝光下影响图像拖尾的电荷回流现象。  本文通过采用六管像素结构使全局曝光CMOS图像传感器能够兼容微光成
随着物联网的快速发展与应用,其物理层不同类型的传感器累积产生了海量的多源异构数据。然而,如何选择、利用更合适的传感器数据,以及实现多源异构数据的协同,是目前物联网发展中面临的重要问题。因此,本文利用不同类型的神经网络对多源异构时间数据、时间与空间数据之间进行协同处理。本文以动态草畜平衡系统为例,通过对卫星传感器获取的归一化植被指数(NDVI)数据与地面气象传感器产生的降雨量数据进行协同处理与分析,
通用串行总线USB(Universal Serial Bus)是一种新型的微机总线接口规范.随着客户对系统数据采集速度要求的不断提高,USB以其使用方便、易于扩展、速度快等优点而越来越多的应用于数据采集系统中.该文介绍了一种基于USB总线的高速数据采集系统的设计方法.该文从硬件和软件两个方面详细地介绍了基于USB接口的高速数据采集处理系统的设计与研制过程.一般来说,USB接口的高速数据采集系统的硬
学位
USB
视频监控系统是城市治安防控、重点区域监测的主要手段,广泛用于平安城市、军事国防、交通运输等各个领域。视频设备的IP化和广域互联导致视频监控系统面临严峻的信息安全问题。视频内容篡改伪造是视频监控系统的主要攻击手段。基于视频指纹的视频篡改伪造检测方法因其视频指纹提取算法复杂度高、效率低而无法实现视频篡改伪造的实时检测。本文聚焦于视频监控系统的视频篡改高效检测与恢复技术研究,具体工作如下:  利用高斯差
学位