基于共享近邻亲和度的聚类算法的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:freebits
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量数据中挖掘出隐含的、未知的并具有较大潜在价值的信息的过程,从不同的角度和层面对数据进行分析处理,并将挖掘出的有用信息和模式应用在生产实践中。聚类分析是数据挖掘的主要任务之一,通过将给定的数据集划分成互不相交的非空子集,从而更好的分析数据的内部结构,发现具有同类特征的模式,同时可以获得数据的分布状况,观察每一个聚类中数据的特征,对特定的簇集作进一步的分析。聚类分析在数据挖掘、模式识别、机器学习、信息处理等诸多领域都具有广泛的应用。本文在研究现有聚类算法的基础上,从密度聚类方法中所需的相似性度量展开研究,分析了现有相似性度量不能准确反映数据分布的问题,提出一种新的相似性度量,并据此提出一种基于共享近邻亲和度的聚类算法。另一方面,本文研究了现有的聚类边界算法,分析了聚类边界的分布特征,在基于矩阵模型进行边界检测算法的基础上,将边界检测算法作为聚类处理的预处理方法,使用提取出的边界信息指导聚类过程。本文的主要创新工作如下:(1)结合k近邻和共享近邻给出了共享近邻亲和度的定义,以该定义为基础提出了一种局部密度度量模型。(2)按照先对核心点进行聚类,后对非核心点进行指派的聚类思想,提出了基于共享近邻亲和度的聚类算法。实验结果表明,该算法能够发现任意形状、大小和密度的聚类,与同类算法相比,该算法在处理多密度数据集和高维数据时具有较高的聚类准确率。(3)提出了使用MMC(基于矩阵模型的高维聚类边界检测技术,Clustering boundary detection based on matrix model)提取边界点,然后对核心点和边界点由内而外的形成聚类的思想。(4)提出了一种基于矩阵模型进行边界检测的聚类技术,实验选取了分布特征各不相同的数据集,实验结果表明该算法可以有效的识别出聚类边界并取得较好的聚类结果。
其他文献
分析了WAP(无线应用协议)网关的功能和特点,并设计了一个功能强大的测试器.该测试器提供了无线会话协议(WSP)层面向连接和面向非连接两种服务的负载测试功能,实现了对WAP业务
  本文采用Dcform-3D有限元分析软件对准干式单刃内排屑BTA钻削进行了仿真研究。应用Deform-3D软件设置模拟参数为干式钻削,在不同的切削用量情况下对切削力的大小、刀具磨
二甲基甲酰胺(N,N-dimethylformamide,DMF)是一种低毒类有机溶剂,作为一种重要的化工原料广泛应用于有机合成、染料、石油提炼、合成纤维、人造革、医药工业和其它行业。DMF的
产业集聚是现实生活当中非常普遍的经济现象。实证分析表明,我国第二产业已有明显的地理集聚现象,部分行业存在着较高的集聚水平,产业的集聚水平总体上在不断上升,产业在地理上的
To render layered silicates miscible with polymer matrices, one must convert the normally hydrophilic silicate surface to an organophilic one, making the interc
根据USB1.1总线协议,分析了USB设备控制器中串行接口引擎SIE模块的功能.采用模块化的设计方法,实现了SIE硬件设计.并针对影响SIE可靠性的主要问题,提出了解决策略.验证结果表
A serological kit was prepared for the first time to detect bacteria that produce Gramicidin (S). Since, an immunocomplex of antibiotic Gramicidin (S) was prepa
针对数控机床加工过程中切削颤振的现象,通过对机床的在线监测,将采样出的加速度信号进行数据处理,提出一种θ法作为判据的方法来判别颤振是否发生,并通过监控计算机对主轴箱
由香港导演陈可辛执导的《武侠》,借男主角唐龙身份的几次变更,展现了民国初年,中国社会存在的三个平行系统:以血缘维系的宗族社会、以法理为准的法治社会、以暴力为王的江湖社会
实验目的通过研究CLA对大鼠体脂肪、血脂浓度、肝脂浓度及脂肪合成分解相关酶活性、能量代谢方面的影响。通过比较对CLA混合物,CLA两种主要异构体、FFA型与TG型CLA在降血脂、