基于最近邻思想的Chameleon聚类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:chaowei7838
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科学技术的进步,数据收集与数据存储的能力也得到了进一步的发展,从而使人们可以获取海量数据,如何从海量的数据中寻找有用的信息已经成为一个迫切需要解决的问题,数据挖掘技术的产生为人们解决这一问题提供了方法。数据挖掘技术将各种数据分析方法与处理海量数据的算法结合,为探究新的数据类型和使用新方法处理旧数据类型提供了新的解决思路。数据挖掘技术的任务可以分为四种,其中聚类分析方法是数据挖掘技术中应用最为广泛的一个分支,在应用统计学、信息检索、生物研究以及商业等方面都有应用。Chamelcon聚类算法是一种凝聚的层次聚类算法,它使用有效的图分区算法将数据的初始分区与一种层次聚类方案相结合,利用一种新颖的相似性度量函数将图的子类组合在一起以获得最终的聚类结果。Chameleon算法可以适用于不同形状、密度和大小的数据集,但它仍存在一定的局限:Chameleon聚类算法在多个关键阶段需要确定参数,聚类结果对参数较敏感;算法中使用距离度量相似性对于高维数据而言不太适用,导致最终聚类结果较差。本文主要对Chameleon聚类算法进行了相关研究,具体研究内容和研究结果如下:1.提出了基于自然邻居的Chameleon聚类算法(NN-Chameleon算法)。针对传统的Chameleon聚类算法在第一阶段对原始数据集进行稀疏化,创建k近邻图时需要人工输入参数k;在合并子簇时需要人工指导算法终止以及未处理噪声点的影响等问题,本文提出了一种基于自然邻居的Chameleon算法。首先,在稀疏化阶段利用自然邻居的概念创建自然邻域加权图;然后,在图划分阶段利用自然邻居改进的密度峰值算法进行图划分,将自然邻域图划分成初始子簇;最后,引入社区复杂网络结构划分中的模块度确定最终聚簇个数指导子簇合并。将本文改进算法在UCI数据集和合成数据集上进行实验,并与五种聚类算法进行比较,实验结果表明:本文算法在三个常用的聚类评价指标上的结果更好,聚类效果更优。2.提出了基于共享邻居的Chameleon算法(SNN-Chameleon算法)。传统的Chameleon算法在对高维数据集进行聚类时,由于距离度量相似性已不再适用,导致最终的聚类结果较差。本文引入共享邻居的概念,使用共享邻居相似性对数据对象进行相似性度量,创建共享近邻加权图;然后使用递归二分法和Flood Fill方法对其进行图划分得到大小基本一致的子簇;最后,根据第一截断法利用聚类过程得到的树状图特点指导度量函数进行子簇合并,得到最终的聚类结果。通过实验将本文算法、Chameleon聚类算法以及M-Chameleon聚类算法进行对比,实验结果表明:本文算法对于高维数据集的聚类具有一定的优势。
其他文献
在正交频分复用(OFDM,Orthogonal Frequency-Division Multiplexing)技术中,循环前缀(Cyclic Prefix,CP)以牺牲频谱效率为代价来抑制多径信道带来的影响。但是在第五代移动通
在信息和数据收集不足的情况下,贝叶斯推理有助于人们合理运用习得的先验知识做出分析和判断。然而,以往研究表明,人们贝叶斯推理表现不佳。为此,Krynski(2007)提出因果贝叶
复杂零件三维形貌自动测量要求测量系统拥有较高的测量效率、自动化以及能够完成不同特征复杂零件的三维形貌测量。目前,结合工业机器人和光学扫描仪的测量系统可实现复杂零
随着计算机图形学,计算机视觉等前沿技术的高速发展,三维重建技术被广泛应用于虚拟现实、游戏建模、影视制作、三维打印等领域,对三维重建进行研究具有非常重要的现实意义。
地图是对客观世界的一种抽象表示形式,是空间信息存储、传递的最主要媒介,在人类的生产生活中扮演着重要作用。特别是地理信息技术愈发成熟的今天,无论是日常出行、农业生产
密集采样的光场在深度估计、重聚焦和三维展示等应用中表现出得天独厚的优势,但是获取困难且昂贵。消费级便携光场相机如Lytro、Raytrix等携带方便、操作简单,但是受主镜头分
伴随着移动通信的飞速发展,频谱资源逐渐稀缺。如何在有限频带资源条件下进一步提升通信的传输效率以及扩大数据的传输范围已成为研究热点。目前针对上述问题所采用的技术主
室内定位技术在室内导航、行为监控、安全救援等方面有着广泛的应用,随着科技的发展与进步,智能终端设备越来越普及,室内定位技术也有了长足的发展。与其它定位技术相比,基于
近年来,我国建筑行业飞速发展,国家大力推进建筑行业工业化和信息化,BIM技术在其中扮演了很重要的角色。计算机技术的飞速发展也带动了BIM技术的快速发展。然而现阶段构建BIM
现代无线通信、卫星定位导航以及卫星探测技术都依赖于电磁波在电离层中的传播,电离层等离子体的非线性效应会对电磁波的传播产生严重影响,使用大功率电磁波加热电离层是研究