论文部分内容阅读
多密度聚类是机器学习领域具有挑战性的研究课题之一,其算法计算复杂度低、可解释性强、易于可视化,被广泛地应用在生物数据分析、金融数据分析、图像数据分析、视频数据分析等领域。但多密度聚类算法仍旧存在一些缺陷,例如不能有效处理具有多密度结构的数据;多密度结构数据聚类效果过度依赖参数等。本文主要对这两类问题开展了深入的研究,提出了以局部密度作为数据结构分析的工具,将所有样本划分为不同密度层,用密度层描述潜在数据集的结构,从而实现了对多密度数据的有效聚类;同时提出了一种基于最小化类簇间区域密度方差的自动聚类算法。另外,本文还将多密度聚类算法用于单细胞RNA序列数据处理、图像分割、人脸识别等任务。具体工作如下:(1)本文在对密度峰值聚类(Density Peaks Clustering,DPC)算法研究的基础上,提出了一个新的多中心密度峰值聚类算法(Multi-center Density Peak Clustering,McDPC),McDPC较DPC具有更好的泛化能力,并能有效处理具有多密度结构的数据。McDPC解决了DPC算法的两个缺陷:无法有效识别具有多个密度峰值(多中心)的类簇和无法有效识别数据集中低密度区域的类簇。具体来说,McDPC根据局部密度()对决策图进行再划分,将所有样本划分为不同密度层,分别处理不同密度层来识别数据集中低密度区域的类簇;同时McDPC对参数(DPC参数)也进行相同的划分,用于识别具有多个密度峰值的类簇。为了验证McDPC算法的聚类效果,本文采用6个合成数据集和6个真实UCI数据集开展实验,并将McDPC算法用于图像分割和人脸识别两种聚类任务上,实验结果表明在各种聚类任务上McDPC都有良好的聚类性能,能够有效识别具有多个密度峰值的类簇和位于低密度区域的类簇。(2)本文提出了一个基于代表点的多密度聚类算法(A Systematic Densitybased Clustering Method Using Anchor Points,APC),APC算法利用了DPC有效识别边缘点和DBSCAN有效处理同密度类簇的能力,克服了DPC和DBSCAN无法有效处理多密度类簇的缺陷,进一步扩展了所提出的McDPC算法的多密度聚类能力。APC算法将所有数据划分到不同密度层,同时分析了边缘点(数据集的离群样本)和连接点(多个自然类之间归属模糊的样本)对于多密度数据聚类结果的影响,然后针对不同密度层分布情况给出不同的聚类策略。APC首先提取数据集的边缘点,然后将剩下的样本分为不同密度层次,不同类型密度层采用不同密度聚类策略。为了验证所提出的APC算法的有效性,本文选取了12个合成数据集,8个UCI真实数据集,以及人脸识别数据集。实验结果显示,APC算法较其他算法聚类效果更好。与McDPC算法相比,APC的泛化性能更好,能够识别更多的多密度数据集。(3)McDPC和APC在聚类多密度数据集任务时具有较好的效果,但McDPC和APC算法包含多个的参数,调参过程复杂,存在参数依赖问题。本文为此提出了一种自适应多密度聚类算法(Density Propagation-based Adaptive Density Clustering,DPADC)。DPADC利用基于区域密度的目标函数,合并微小类,达到无需参数生成更加优质的聚类结果。具体来说,DPADC算法主要分为两个阶段,第一阶段是生成微小类,第二个阶段是微小类合并:分为局部合并和全局合并。局部合并由类间距离和类内距离差决定,全局合并由合并类的区域密度方差变化决定。本文使用了4个合成数据集和4个UCI真实数据集测试了DPADC算法有效性,实验结果表明DPADC是一种有效的自适应多密度聚类算法。(4)在多密度聚类算法的实际应用方面,本文提出了一种基于类匹配的多密度聚类算法(Matching Clusters Structures-based Clustering algorithm,MCSC),应用于单细胞RNA序列数据处理。MCSC算法首先利用K-means生成两组聚类结果,每组聚类结果都由不同中间类组成;其次对中间类进行再划分:微小类和核心类;然后采用共享最近邻描述了高维空间下微小类和核心类之间的关系;最后根据所提出的最小化互信息目标函数控制微小类的再分配过程。本文使用了5个真实单细胞RNA数据集测试了MCSC算法效果,实验结果表明MCSC算法能够有效处理高维少样本的RNA序列数据。综上,本文对多密度聚类及其相关问题进行了系统性研究,提出了四个多密度聚类算法。特别是APC算法能够识别12个经常用于检测聚类性能的合成数据集。本文最主要的理论贡献有两点:一是提出了以局部密度作为数据结构分析的工具,一个潜在的数据集可以通过局部密度被划分为多个密度层,后续的聚类会更加简单、高效,以此理论为基础提出了McDPC和APC两种多密度聚类算法。二是提出了一种基于区域密度的自适应聚类方式。