面向大规模单细胞数据集的密度聚类方法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:mgq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞类型研究是生命学科领域中的一个重要课题。近些年,随着检测技术的发展,研究人员可以在单细胞尺度对大量细胞的多个特征进行检测,这为细胞类型研究提供了充足的数据支撑。由于单细胞数据集通常是高维且无标签的,聚类方法逐渐成为细胞类型研究中的主要数据分析方法。但是,现有的聚类方法往往在效率、有效性或鲁棒性方面存在一定的不足。为了更好地解决规模较大、维度较高的单细胞数据集的聚类问题,本文提出了四个在效率、有效性和鲁棒性方面达到较好平衡的密度聚类方法。方法一:基于层次最近邻上升的聚类(Hierarchical Nearest Neighbor Ascent based Clustering,HNNA-C)。该方法是本文作者提出的最近上升聚类(Nearest Ascent Clustering,NAC)的一个改进方法。尽管NAC具有一定程度的非球状簇检测能力和较低的噪声及参数敏感性,但NAC具有较高的时间复杂度(为O(N~2),其中N为样本数)。由于NAC在构建一棵入树(in-tree)的过程中涉及核密度估计和父节点搜索这两个耗时的步骤,HNNA-C借助于快速近邻算法使得这两步都能在邻域范围内快速完成,并通过层次策略保证构建的图仍是一棵入树。理论分析表明,HNNA-C的时间复杂度为O(N log N)。实验结果表明,HNNA-C继承了NAC在有效性和鲁棒性方面的优点,并且在处理规模较大、维度较高的单细胞数据集时,HNNA-C的整体性能优于NAC和一些其它最新的高效聚类方法。方法二:基于h HNNA的核多树融合聚类(h HNNA-based Kernelized Multiple Tree-merging-based clustering,h HNNA-KMT),其中h HNNA为HNNA的一个变体。h HNNA-KMT也是NAC的一个改进方法。和HNNA-C不同的是,h HNNA-KMT旨在同时提升NAC在鲁棒性、有效性和效率这三方面的性能。为此,h HNNA-KMT先使用h HNNA得到一个包含h个分支的森林,然后使用基于核技巧和多树融合的聚类方法对该森林的根节点聚类,最后基于根节点的聚类结果融合森林中的分支。理论分析表明,h HNNA-KMT的时间复杂度为O(N log N)。实验结果表明,h HNNA-KMT比NAC的有效性和鲁棒性更高,并且在处理规模较大、维度较高的单细胞数据集时,h HNNA-KMT的整体性能优于NAC,且和一些其它最新的高效聚类方法具有可比性。方法三:基于局部密度峰值及最小生成树(clustering with Local Density Peaks-based Minimum Spanning Tree,LDP-MST)的改进聚类方法,称为快速LDP-MST(Fast LDP-MST)。虽然LDP-MST在有效性和鲁棒性方面具备了较好的性能,但它在效率方面存在一定的不足。具体而言,LDP-MST的时间复杂度为O(N log N+M~2),其中M是一个中间变量。本文的实验揭示,当处理大规模数据集时,M的值可能会很大;在这种情况下,LDP-MST中包含O(M~2)时间项的步骤会非常耗时。本文设计了更高效的算法来实现LDP-MST中包含O(M~2)时间项的三个步骤(即LDP-MST的5、6和7步)。具体而言,本文通过快速确定M×M稀疏权重矩阵的所有非零元素以实现对LDP-MST的第5步的加速,通过从稀疏权重矩阵中快速构建最小生成森林的方式实现对LDP-MST的第6步的加速,以及通过在动态边检测过程中快速计算簇的大小的方式实现对LDP-MST的第7步的加速。理论分析表明,Fast LDP-MST在M≈N时仍有O(N log N)的较低时间复杂度。实验结果表明,Fast LDP-MST不仅比LDP-MST更高效,同时也继承了LDP-MST在有效性和鲁棒性方面的优点。在处理规模较大、维度较高的单细胞数据集时,Fast LDP-MST的整体性能优于LDP-MST和一些其它最新的高效聚类方法。方法四:水平集森林(Level Set Forest,LSF)聚类。LSF是一种基于多尺度水平集的密度聚类方法。该方法先为每个样本找到离它最近的k个点,并基于此估计每个节点密度;紧接着基于多尺度水平集密度聚类的思想构建一棵森林;随后剪除这棵森林中权重最大的几条边;最后确定由剪边后生成的图的各个连通分支,并将属于同一个连通分支的所有节点视为一个簇。LSF的关键一步为构建一棵森林。和已有方法相比,LSF在这一步有以下两点不同:1)LSF得到的层次结构为一棵森林,而非密度聚类树(density cluster tree)或水平集树(level set tree);2)在构建森林的过程中,LSF基于两个簇的峰值密度和谷点密度的相对关系来度量每一层合并的两个簇之间的距离,并将这个距离视为森林中边的权重。理论分析表明,LSF的时间复杂度为O(N log N)。实验结果表明,LSF在有效性、效率和鲁棒性这三个方面同时具备较好的性能,并且适用于簇个数已知或未知的场合。此外,在处理规模较大、维度较高的单细胞数据集时,LSF和一些最新聚类方法表现出相当的性能。总体而言,本文为解决规模较大、维度较高的单细胞聚类问题提供了新的技术支撑,也进一步丰富了密度聚类方法的研究。此外,本文提出的聚类方法都没有使用单细胞聚类领域的先验知识,这使得这些方法可能具有普适性的应用价值。
其他文献
研究背景:肺癌是一种高发病率、高死亡率的恶性肿瘤,已严重危害人类健康。非小细胞肺癌(Non-small cell lung cancer,NSCLC)是最常见的肺癌,约占肺癌病例的80-85%,其发病人数呈逐年增多趋势,并且大多数患者在确诊时已为中晚期,为临床治疗带来巨大困难和挑战。因此,积极寻找新型的分子标志物,对NSCLC的诊断具有十分重要的临床意义。近年来,基因芯片测序数据为NSCLC基因靶
学位
随着网络的蓬勃发展,网络资源管控模式也在不停演进,以适应庞大的用户数量、快速发展的智能设备和日益丰富的应用类型。以区分服务(Differentiated services,Diff Serv)为代表的静态描述模式,会预先对不同的业务类型进行定义或描述,但由于难以对应用层的指标进行量化和缺乏应用层对网络资源动态需求的感知,其性能受限。以应用知晓的网络(Application-Aware Networ
学位
信号检测是信号处理领域中一个极为重要的环节。在复杂多变且充满各种干扰的环境中,如何提高检测性能一直是雷达系统和声纳系统重要的研究课题之一。大多数情况下,检测环境均具有非均匀性,这使得可用于目标信号检测的训练样本数通常较少,进而使得很多检测方法的检测性能因训练样本的减少而下降。除此之外,很多检测方法都包含了矩阵求逆,而矩阵直接求逆通常会消耗大量的运算资源,这对检测系统造成了较大的运算负担。Krylo
学位
期刊
太赫兹波的特殊位置赋予了其诸多区别于其他频段电磁波的特有性质,在物质鉴别、安全检查、无损探伤、生物医学、雷达与通信等领域均有着极其重要的应用前景,尤其是随着太赫兹波产生和探测技术的成熟,太赫兹技术研究近年来已受到各行业广泛的关注。然而由于缺乏可有效响应太赫兹辐射的天然材料,太赫兹波段可调器件的研究相对滞后,已然成为了当前太赫兹技术实用化进程的主要障碍。尽管当前已有众多新材料、新结构和新方法被用于提
学位
谱感知和谱估计技术在电子侦察、频谱管控、认知通信等应用领域中至关重要。由于谱感知接收机应具有较大的瞬时带宽,用奈奎斯特率进行高速采样会给硬件实现带来极大的压力。目前基于sub-Nyquist采样技术的谱感知技术能有效地缓解高采样率带来的问题,实时地感知较大的频谱范围。另外,结合了阵列技术的谱感知技术除了可以获取信号源频谱的分布情况外,还能同时估计出信号源的来波方向(Direction of Arr
学位
微波等离子体具有高电子温度和高电子密度的特性,这使得微波等离子体已经被广泛用于表面刻蚀、材料制备、废气处理等方面。而更高频率的毫米波产生的等离子体可以实现更加高的电子温度和电子密度,可以实现更快速的等离子体化学沉积、进行CO2气体处理,实现等离子火箭、毫米波通信和紫外线(UV)辐射源等应用。因此,毫米波等离子体具有广阔应用前景与重大研究价值。本学位论文对等离子体的诊断、控制和相应的原理进行了系统的
学位
离子推进器具有比冲高、效率高、寿命长、体积小等优点,目前已被广泛应用于地球轨道卫星、深空探测和星际航行等任务。放电室是离子推进器生产等离子体的主要组件,其放电效率直接影响推进器的工作性能。然而由于实验成本和数值计算能力的限制,放电室内的许多放电机制仍未被很好地理解,限制了对其进一步的优化和改进。因此,本文研制了高性能粒子模型对放电室的等离子体特性、外加磁场影响和动态电磁效应等关键物理问题展开研究,
学位
随着深度学习的飞速发展,计算机视觉的研究内容已不满足于简单的标注,其所面临的任务越来越多样化、越来越复杂,不断涉及到对更高语义信息的分析和理解。本文针对图像/视频和文本之间的跨媒体高层语义理解,特别是对跨媒体语句生成与定位这一课题进行深入研究。本文首先对跨媒体语句生成与定位课题相关的技术进行了回顾和总结。接着,从跨媒体语句生成,即图像文本描述自动生成这个具体任务出发,研究了图像区域定位和视觉注意机
学位
雷达目标三维成像及散射特性研究是结合三维测试系统以及雷达三维成像技术,并对全空间目标散射特性进行深入分析的先进研究方法。该项研究有助于评估雷达目标的隐身性能或雷达系统的反隐身性能,并可协助开发具有低可探测性的装备或提高雷达探测水平,为雷达散射截面(Radar Cross Section,RCS)测量、雷达目标检测与识别、隐身涂层的吸波指标评估、反恐、安检等应用提供新技术途径。该项研究的核心在于如何
学位