基于网格的带有参数参考值的聚类算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:HGameG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的一个重要领域,具有广泛的应用领域。同时,聚类算法研究也是数据挖掘领域中一个比较困难的课题。目前很多流行的聚类算法,比如k-means、k-medoids、BIRCH、CURE、DBSCAN、STING等,虽然得到了广泛的应用,但是聚类算法也面临着很多的新问题。如聚类参数设置的盲目性、海量数据的处理、高维数据的聚类等。在聚类的过程中,大多数聚类算法需要用户自己输入一些参数值,参数值的输入不当将对聚类结果造成重大影响。对于普通用户来说,如何选取参数的参数值是比较麻烦的事情。所以常常导致聚类参数设置的盲目性。对于基于网格的聚类算法,密度阈值是一个非常关键的参数。为了减轻密度阈值设置的盲目性,本文提出了一种新的算法即一种基于网格的带有参数参考值的聚类算法(GRPC算法)。该算法在网格算法的基础之上结合了密度思想和数据分布演化思想。根据数据分布演化思想提出了密度阈值公式。通过密度阈值公式的计算,可以得到多个不同的密度阈值。利用这些密度阈值,该算法不但能满足一般的聚类要求,而且还能将高密度的聚类从低密度的聚类中分离出来。算法分析和仿真结果表明,其时间复杂度少于密度聚类算法DBSCAN,聚类效果较好,能有效处理任意形状和大小的聚类,很好地识别出孤立点或噪声,可以聚类不同程度的聚类,并且有较好的精度。然后,本文对GRPC算法在高维性和可伸缩性两方面进行了扩展。采用二维子空间聚类方法来聚类高维数据,将高维数据空间的聚类转化到二维子空间来进行。利用简单随机抽样技术来抽样大规模数据集,通过对样本数据集的聚类结果来聚类原数据集。扩展后的GRPC算法不但能聚类小规模数据集而且能聚类大规模数据集,不但能聚类二维数据而且能聚类高维数据。扩展后的GRPC算法时间复杂度除了跟数据集中数据个数和抽样率有关外跟维度的平方也有很大关系。仿真结果表明此算法的扩展是完全切实可行的。
其他文献
全局照明计算是一种重要的基于物理光学原理的计算机图像合成方法.在光滑的平面上,它也是特别重要的,因为它以光滑材料特征的正确感知为条件.这篇论文主要集中于在光滑平面上
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网格虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格不仅提供利用强大计算机解决巨大挑
随着嵌入式的应用领域不断扩展,对嵌入式系统的要求越来越高。有的领域需要具有强大的浮点运算能力,有的领域有低功耗的要求,还有的领域需要提供多种硬件接口或多种联网方式。为
随着社会经济的发展和科学技术的进步,特别是城市人口的急剧增加和城市化进程的飞速发展,高层建筑和大空间场所越来越多,火灾的防范和发现变得越来越紧迫。传统型火灾探测技术在
直流电机调速系统因精度高、调速范围广、执行机构控制简单等优点在对调速性能要求较高的场合得到了广泛应用。目前,随着新型大功率电力电子器件IGBT技术的发展和PWM调制调速
塘沽地热试验研究中心在该系统上马之前对于地热水使用的管理方式,信息来源一般依据管理人员入户查询并上报进行管理。人工进行管理,数据的准确性得不到保证。随着企事自身实
随着计算机技术和医疗信息化的不断发展,健康检查系统得到了广泛应用,目前大多数健康检查系统都没有专门的报告报表处理工具,而作为检查结果的最终展示,健康检查报告和报表的地位又十分重要。健康检查报告报表生成系统能够在短时间内完成多种查询、统计分析以及各种报告报表的自动生成和打印。因此,能够提高工作效率、节省人力资源、方便资料的存储和管理,使信息和结论更具科学性。液基薄层细胞学检测技术(Thin-Cyto
近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些“Deep Web”数据与基于静态网页的“Surface Web”相比,可以提供大量动态生成的网页
随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量
随着Web应用越来越复杂多样,单个简单的Web服务也越来越无法满足实际的应用需求,如何有效地自动组合Web服务以完成复杂功能吸引了越来越多研究人员的目光。本文从智能规划中的