基于k近邻的密度聚类算法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:s66_ch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据量日益增多,数据分布呈现多样化、复杂化。在众多应用领域中,包含任意形状、任意密度以及任意大小的簇的数据集广泛出现。传统的聚类算法无法有效地识别出分布复杂的数据点中的簇结构。同时,很多新的聚类算法在各种数据集中检测任意簇时,通常会遇到精确性不高或者执行效率较低等问题。因此,在分布复杂的数据集中,精确地检测出任意形状、任意密度以及任意大小的簇,是当前亟待解决的重点问题之一,也是聚类的研究热点。k近邻是一种分类算法,综合考虑了数据点所具有的特性和所处的空间位置。在基于密度的方法中,密度可以通过数据分布的紧密程度来决定,并且基于密度的聚类方法也适合检测数据集中任意形状的簇结构。本文在深入研究k近邻与基于密度的聚类算法的基础上,提出了两个有效检测任意簇的基于k近邻的密度聚类算法CUDG和CLDB。(1)CUDG算法通过把每个数据点看作为自然界中的质点,定义了数据点间密度引力的概念。首先根据每个数据点的周围邻居分布密集程度获得其局部密度,然后迭代地将每个数据点分配给密度比它大且距其最近的互近邻点形成初始簇,最后将具有共同数据点的初始簇进行合并得到最终簇。本文实验将CUDG分别与六个对比算法在十二个不同维度、不同类型的数据集上进行了测试,结果表明,该算法的聚类性能良好,且可以在不同类型的数据集中发现任意簇。(2)CLDB算法新定义了一个计算局部密度的函数,通过将密度比其所有互近邻都大的数据点与其互近邻合并形成簇的密度主干来有效保持簇的基本形状,然后将剩余未标记点分配给密度比它大的最近邻所在的簇主干,从而实现数据集的最终划分。为了验证算法的性能,本文选用了与CUDG相同的十二个带标签的数据集和两个无标签的数据集作为基准,同时使用了与CUDG相同的对比算法。结果显示,该算法相比其他几个对比算法在不同类型的数据集上均表现最优,能够有效检测出复杂数据中的任意簇及其异常点。两个算法均可在不同类型的数据集上较准确地识别出真实的簇结构,其中,CUDG是通过两点之间的作用力实现簇的划分,CLDB是通过高密度点吸引其互近邻形成簇密度主干的方式进行聚类。二者时间复杂度都接近于O(n?logn)。
其他文献
基于目前最优化方法理论教学与实验教学脱节的现状,设计了一套实验课程,包括基本算法和课程项目两大模块,分别覆盖了经典的最速下降法、Newton法、拟Newton法、共轭梯度法、
背景:原发性胆汁性肝硬化(primary biliary cirrhosis,PBC)属于自身免疫性肝病的一种,病理表现主要以进行性的肝内非化脓性小胆管破坏、门静脉炎症为特点,最终可导致肝纤维化
退市难是当今中国证券市场亟待解决的问题。退市机制运行是否顺畅是衡量证券市场成熟度的试金石。本文通过对比中美退市制度及实施效果,发现我国退市制度实施效果不佳,退市制
PLC能够实现高水平的自动化控制,在电气控制线路设计中加强PLC的运用,可以提升电气控制线路的整体控制性能。基于此,本文针对PLC的结构和相关配置进行了简单的分析,然后从步
句调是贯穿整个句子的高低升降的变化.在普通话中句调分为平、升、曲、降四个方面,张家口方言区能熟练运用平、升、降三种句调类别,但由于受方言句调影响在曲调中出现一种独
[目的]通过建立模拟微重力环境,在体外对SD大鼠髁突软骨细胞进行三维培养,探讨模拟微重力环境对软骨细胞生物学特性的影响,为髁突软骨组织工程的种子细胞培养提供研究基础。[
根据模糊三角数的概念构造判断矩阵,据模糊三角数比较大小的原理进行层次单排序;完善交改进了三角模糊数和AHP的理论与方法,最后,介绍了FuzzyAHP在石油勘探区带评价中的一个应用案例。
广西彩调剧目的形成发展大致经历了对子调、江湖调、大调子、传统剧目的整理改编、现代剧目的创编这五个阶段,不同阶段呈现出不同的审美风貌和文化意蕴。早期对子调奠定了彩
服装种类繁多且许多类别之间的差异很小,给高效准确的图片搜索和分析带来了挑战,而通过获取图片标签信息可以帮助解决图片的搜索和分析问题。基于卷积神经网络的图像分类和目
水资源是一种重要的可再生能源。通过水利发电既可以解决我国现有的能源困境,又可以做到对环境的保护治理。在我国目前存在的小型水电站中,由于地理位置偏远、资金投入较少、