基于连通性的聚类有效性问题研究

来源 :北京交通大学 | 被引量 : 15次 | 上传用户:jljc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是机器学习领域中一个非常重要的内容。聚类分析的任务是在数据中发现有意义的数据分类。聚类分析已经成功的应用在很多领域中,如工程领域、商业领域和社会科学领域等。但聚类分析中仍有很多关键问题需要研究,本文重点对聚类有效性问题进行了研究。本文对基于连通性的聚类有效性问题进行了深入的研究,在此基础上指出以往的聚类有效性指标中存在的两个问题:第一,不能很好的评价类形状任意的聚类结果;第二,现有的基于连通性的聚类有效性指标忽略了聚类结果中类内紧致性差异大对有效性指标的影响,从而可能导致错误的评价结果。针对以上两个问题,本文提出了相应的解决方法。首先利用图连通距离对形状和大小的不敏感性对任意形状聚类的类内紧致性进行度量,解决了对任意形状聚类的评价问题。其次,提出了定义聚类有效性指标的一种思路:对整个聚类结果的评价应该首先建立聚类结果中单个类的有效性,之后再对整个聚类结果进行评价。按照上述思路定义的聚类有效性指标可以克服聚类结果类内紧致性差异大对聚类结果评价造成的不利影响。将以上两点相结合,本文定义出一种基于连通性的聚类有效性指标。本文使用人工数据集和真实数据集进行了实验。实验的结果表明该聚类有效性指标是有效的。
其他文献
单证作为承载信息的一个载体为魔力平台可视化开发提供基础,单证关系为平台的开发和运行提供支撑。因此单证关系的定制在平台中至关重要。但平台中原单证关系的定制模型存在
目前,随着数字媒体的迅速普及和互联网的蓬勃发展,数字水印技术已经成为保护网络信息安全的重要手段,人们可以通过在数字媒体信息中嵌入数字水印,来实现检测作品的完整性和真实性
在多租户云数据库中,为了保证租户服务质量,资源隔离技术日益流行。其中轻量级组件CGroup可以限制、记录、隔离进程组所使用的物理资源,具有易部署和易管理的优点。但是在用C
无线传感器网络能够实时监测、感知和采集各种环境或者对象的信息,并且能够对其进行相应的数据处理,因此,它被广泛地应用于军事、医疗、交通、环境等诸多领域。由于传感器节
无线射频识别(RadioFrequencyIdentification,简称RFID)技术是一种非接触的自动识别技术,可利用射频方式进行双向通信,达到自动识别目标对象并获取相关数据的目的。随着RFID技术
自从八十年代开始,射频识别技术(RFID:Radio Frequency Identification)已经是一项逐步走向成熟的非物理接触的自动识别技术。在远距离、恶劣环境的情况下,RFID技术仍然可以达
随着内存计算技术的飞速发展,大容量、低能耗的内存架构已经成为支撑内存计算发展的关键因素,然而现有基于DRAM(Dynamic Random Access Memory)的主存系统却受限于DRAM自身的
目前嵌入式领域的图像处理技术逐渐呈现出计算复杂、数据量大、并发性和实时性的要求越来越高等特点,使得传统的处理器体系结构越来越难以满足应用的需求,亟需研究新型高性能处
随着因特网的愈加普及,互联网正在成为一种不可缺少的信息传播媒介。但同时,网上的不良信息如反动、色情等内容也随之扩散,极大的影响了国家的安定和人民群众的身心健康。论
随着互联网的快速发展,应用所产生的数据量越来越大。分布式数据库HBase对海量数据的管理得到了广泛应用。许多企业希望将原本存放在关系型数据库中的数据迁移到分布式数据库