基于网格的均匀簇划分算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:mmlovejj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人们在日常生活中获取的信息量与日俱增。如何在海量数据中选取对自己有用的信息,成为目前广大用户面临的主要任务。在此情况下,数据挖掘技术应运而生并且在日常生活中发挥着越来越重要的作用。借助数据挖掘技术,人们可以发现大量数据背后的隐藏的、有价值的知识。聚类分析,作为数据挖掘中的一项重要技术,近年来也得到了飞速的发展和广泛的应用。在众多的聚类方法中,基于网格的聚类方法以其计算速度快的优势,成为数据挖掘的研究领域中一个比较活跃的课题。然而,目前存在的各种聚类方法都不能满足用户得到均匀簇这一约束条件。因此,本文提出了一种基于网格的均匀簇的划分算法。本文首先介绍了数据挖掘技术的概念、兴起和在目前信息时代中的重要作用。接着论述了聚类技术的概念、应用、现有的聚类方法的分类、每个聚类任务的详细步骤,并指出了每个步骤中应该注意的问题。其次,本文对目前存在的五种传统的聚类方法,特别是基于网格的聚类方法进行了详细的论述;分别阐述了每种方法的算法思想,算法流程,算法的发展过程和算法的优缺点;并对这五种聚类方法进行了纵向对比,从而为我们在实际应用中选取合适的聚类方法提供了参考。再次,本文在对现有聚类方法研究的基础上,指出了现有的聚类方法都只是把具有“相似性”的数据聚在一个簇内,将整个数据对象划分为若干个簇,每个簇内含有的数据对象的数目各不相同。而在有些情况下,用户的约束条件是要求聚类得到的每个簇内包含的数据对象的数目相等。很明显,目前的聚类方法都不能满足这一约束条件。基于以上问题,本文提出了一种基于网格的均匀簇的划分方法。此方法是先将要进行聚类处理的对象空间划分为若干个网格,再通过对网格的二分和与其邻居网格的合并操作,将数据空间上的点按距离相近的原则划分为若干个簇。这样得到的聚类结果不仅能保证具有相似性的点聚在一个簇内,还能保证每个簇内含有的点数目相等。此算法既有基于网格的聚类方法计算速度快的优点,又克服了传统的聚类方法不能得到均匀簇的不足。本文利用MATLAB软件实现了该算法,并通过仿真实验证明了其有效性。最后,本文对此算法在实际生活中的应用前景进行了展望,并指出了该算法的不足和改进之处。
其他文献
随着无线传感器网络(Wireless Sensor Network, WSN)应用的日益深入,海量数据的产生在WSN环境中也将变得越来越普遍。但是传统的如简单的数据查询等数据处理方式,不仅无法满
伴随着通信技术的不断发展和视频处理技术的日新月异,数字视频的应用范围越来越广泛。由于原始视频数据量比较大,因此很难全部在硬盘中进行储存或者在网络上进行传输。然而,
迁移工作流是近年来工作流研究的新方向,是一种基于移动agent计算的工作流管理新模式。迁移工作流引擎、迁移实例(migrating instance,mi)和工作位置是组成迁移工作流系统的
近年来,迁移工作流(Migrating Workflow)成为了工作流管理研究的一个新方向。基于移动计算的迁移工作流包含三个要素:工作流引擎、工作位置和迁移实例。工作流引擎定义工作流
动作数据是进行三维角色动画制作的重要元素,通过动作捕捉设备获得的人体动作数据比传统的关键帧技术生成的角色动作具有更好的视觉真实性。目前,人体动作捕获数据已经被广泛应
随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分
随着互联网技术以及各种数据库应用的快速发展,数据存储以及数据传输过程中所涉及的数据复杂程度已远超过传统的数据,许多现代的应用都要分析和处理一些不可靠、不一致和不准确
从90年代初开始,随着人类基因组计划的展开与深入,科学工作者发现,人类的各种遗传、性状和甚至疾病等都与基因有着密切的联系。基因的载体是染色体,即一条完整的基因序列。不
随着科学技术的发展,越来越多的单产品处理器被批处理器所取代。人们对批调度问题的研究达到了前所未有的高度,其中大多数工作是针对单机并行批调度问题的研究。   论文研
随着数码相机的广泛应用,人们在旅游、聚会等场合越来越多地使用相机来记录一些有意义的、值得回忆的场景。但由于场景中的场地、光照或者天气不合适、相机性能的限制和用户