多密度聚类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xialin1983922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多密度聚类是机器学习领域具有挑战性的研究课题之一,其算法计算复杂度低、可解释性强、易于可视化,被广泛地应用在生物数据分析、金融数据分析、图像数据分析、视频数据分析等领域。但多密度聚类算法仍旧存在一些缺陷,例如不能有效处理具有多密度结构的数据;多密度结构数据聚类效果过度依赖参数等。本文主要对这两类问题开展了深入的研究,提出了以局部密度作为数据结构分析的工具,将所有样本划分为不同密度层,用密度层描述潜在数据集的结构,从而实现了对多密度数据的有效聚类;同时提出了一种基于最小化类簇间区域密度方差的自动聚类算法。另外,本文还将多密度聚类算法用于单细胞RNA序列数据处理、图像分割、人脸识别等任务。具体工作如下:(1)本文在对密度峰值聚类(Density Peaks Clustering,DPC)算法研究的基础上,提出了一个新的多中心密度峰值聚类算法(Multi-center Density Peak Clustering,McDPC),McDPC较DPC具有更好的泛化能力,并能有效处理具有多密度结构的数据。McDPC解决了DPC算法的两个缺陷:无法有效识别具有多个密度峰值(多中心)的类簇和无法有效识别数据集中低密度区域的类簇。具体来说,McDPC根据局部密度()对决策图进行再划分,将所有样本划分为不同密度层,分别处理不同密度层来识别数据集中低密度区域的类簇;同时McDPC对参数(DPC参数)也进行相同的划分,用于识别具有多个密度峰值的类簇。为了验证McDPC算法的聚类效果,本文采用6个合成数据集和6个真实UCI数据集开展实验,并将McDPC算法用于图像分割和人脸识别两种聚类任务上,实验结果表明在各种聚类任务上McDPC都有良好的聚类性能,能够有效识别具有多个密度峰值的类簇和位于低密度区域的类簇。(2)本文提出了一个基于代表点的多密度聚类算法(A Systematic Densitybased Clustering Method Using Anchor Points,APC),APC算法利用了DPC有效识别边缘点和DBSCAN有效处理同密度类簇的能力,克服了DPC和DBSCAN无法有效处理多密度类簇的缺陷,进一步扩展了所提出的McDPC算法的多密度聚类能力。APC算法将所有数据划分到不同密度层,同时分析了边缘点(数据集的离群样本)和连接点(多个自然类之间归属模糊的样本)对于多密度数据聚类结果的影响,然后针对不同密度层分布情况给出不同的聚类策略。APC首先提取数据集的边缘点,然后将剩下的样本分为不同密度层次,不同类型密度层采用不同密度聚类策略。为了验证所提出的APC算法的有效性,本文选取了12个合成数据集,8个UCI真实数据集,以及人脸识别数据集。实验结果显示,APC算法较其他算法聚类效果更好。与McDPC算法相比,APC的泛化性能更好,能够识别更多的多密度数据集。(3)McDPC和APC在聚类多密度数据集任务时具有较好的效果,但McDPC和APC算法包含多个的参数,调参过程复杂,存在参数依赖问题。本文为此提出了一种自适应多密度聚类算法(Density Propagation-based Adaptive Density Clustering,DPADC)。DPADC利用基于区域密度的目标函数,合并微小类,达到无需参数生成更加优质的聚类结果。具体来说,DPADC算法主要分为两个阶段,第一阶段是生成微小类,第二个阶段是微小类合并:分为局部合并和全局合并。局部合并由类间距离和类内距离差决定,全局合并由合并类的区域密度方差变化决定。本文使用了4个合成数据集和4个UCI真实数据集测试了DPADC算法有效性,实验结果表明DPADC是一种有效的自适应多密度聚类算法。(4)在多密度聚类算法的实际应用方面,本文提出了一种基于类匹配的多密度聚类算法(Matching Clusters Structures-based Clustering algorithm,MCSC),应用于单细胞RNA序列数据处理。MCSC算法首先利用K-means生成两组聚类结果,每组聚类结果都由不同中间类组成;其次对中间类进行再划分:微小类和核心类;然后采用共享最近邻描述了高维空间下微小类和核心类之间的关系;最后根据所提出的最小化互信息目标函数控制微小类的再分配过程。本文使用了5个真实单细胞RNA数据集测试了MCSC算法效果,实验结果表明MCSC算法能够有效处理高维少样本的RNA序列数据。综上,本文对多密度聚类及其相关问题进行了系统性研究,提出了四个多密度聚类算法。特别是APC算法能够识别12个经常用于检测聚类性能的合成数据集。本文最主要的理论贡献有两点:一是提出了以局部密度作为数据结构分析的工具,一个潜在的数据集可以通过局部密度被划分为多个密度层,后续的聚类会更加简单、高效,以此理论为基础提出了McDPC和APC两种多密度聚类算法。二是提出了一种基于区域密度的自适应聚类方式。
其他文献
一个民族的伦理精神是这个民族认识自身完善自身追求幸福的心灵向度。伦理精神最为突出、完整地保留在一个民族的文学作品当中。古希腊神话中除了它的审美价值之外 ,还包含着
腹部皮下注射是心脑血管科常用的治疗方法,注射时易出现淤斑,硬节是常见的不良反映,因此保护注射部位延长使用时间尤其重要,同时也反映着病人在医院里接受整体护理的质量。下面浅
近年来,急剧增加的CO2排放对环境造成了严重影响而能源供给日益紧张。将CO2加氢转化合成清洁燃料甲烷,对缓解石油危机和保护环境都有重要的意义。本文主要对CO2甲烷化催化剂
当前,面对全球化的环境持续恶化、资源日益短缺、各国环保制度的愈加严格、各国绿色贸易壁垒的加强以及消费者绿色环保意识的提升,传统的供应链管理已经难以满足企业生产经营
为了解决采集的脑电信号中常含有工频、心电、肌电和眼电等多源干扰问题,提出一种基于降噪源分离的脑电信号消噪方法.首先,该方法经过小波分解重构,消除高斯噪声完成预处理;
本文通过对《神农本草经》的文献研究,确认了豺漆五加应是上品药。并从药材形态、性味、功用及主治诸方面,进一步说明豺漆五加即为今之红毛五加。
随着科技的不断发展,我国已经进入了信息时代,通过人们对网络技术和计算机技术的综合应用,在各行各业中均取得了较为不错的效果。在信息时代,对人才的要求也就越来越高,由此,
以片层二硫化钨(WS2)为前驱体,氯化钠(Na Cl)为介质,CO为气体碳源,采用程序升温法一步合成片层碳化钨/碳复合材料(WC/C)。通过X射线衍射(XRD),X射线近边吸收谱(XANES)和扫描电镜(SEM)等一
癌症被认为是一种表观遗传疾病。表观遗传异常改变导致参与细胞正常生长的关键基因失活,促进癌症发生和发展,这使得对癌症治疗上可采取一些主动性表观遗传调节。DNA去甲基化
以创业带动就业是优化大学生资源配置的重要举措,能够激发年轻劳动力的创新活力。通过对71份国家创业政策的分析,发现当前我国大学生创业政策偏重命令工具,激励工具其次,而能