基于密度垂直中点的K-means聚类算法改进研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:JSLDYY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种特殊的数据处理技术。它是指通过分析海量数据或信息,从中提取出潜在的、有用的、不为人所知的知识,来辅助人们做出正确决策。目前,数据挖掘技术是信息领域和数据库技术的前沿研究课题,也是被学术界公认为最具发展前景的关键技术之一。聚类分析技术,作为数据挖掘的主要预处理方法之一,近些年来也随着数据挖掘技术的研究和发展,广泛受到学者们的关注。它是对给定的数据集进行合理分类的一种方法。目前,国内外学者纷纷提出了多种聚类分析算法,在一定程度上推进了数据挖掘的发展。在深入研究和理解聚类方法的基础上,本文针对其中最常用的K-means聚类分析算法进行了深入研究,并针对其算法存在的不足,进行了优化和改进,并提出了一种基于数据密度垂直中点的初始聚类中心选取优化算法。主要研究内容包括:(1)针对传统K-means聚类算法思想简单、但聚类效果对初始聚类中心的选取较为敏感;又由于初始聚类中心的随机性,使得聚类效果很不稳定的问题;以及随着数据样本空间的增大,时间耗费越来越多的问题。本文提出了基于密度垂直中点作为初始聚类中心进行初始划分,通过计算数据样本点密度值,反映数据样本大致分布情况,并且,利用当前最高密度点与其最近点的垂直中点作为初始聚类中心来进行聚类划分,具有较好的代表性。(2)针对传统K-means聚类方法需预先人工设定好聚类数目,有较高的经验性要求,聚类效果也受聚类个数的影响而效果相异较大。论文结合均衡化评价函数,围绕聚类方法“类间低耦合,类内高度紧密”的实质对此加以改进,先对聚类数进行自动设定和迭代选取,然后使用改进的聚类数评价函数进行计算,不断迭代进行,获得使函数值最小的k值,就是我们需要的最优聚类数。(3)本文将优化后的算法在UCI数据集上进行了多组实验,并与传统的聚类算法进行了对比,在实验对比中发现:提出的改进算法相比传统的K-means聚类算法具有明显的优势,并且,在同一数据集上,相比于文献中的某些聚类改进算法具有更高的准确性和更好的稳定性。实验表明:本文优化后的聚类算法克服了传统K-means聚类算法存在的缺陷,在测试数据集上取得了较好的聚类效果,因此,具有一定的研究和应用价值。
其他文献
在信息爆炸的今天,搜索引擎已经成为了一种从大量的数据信息中发现、推理知识的有效工具。但是,传统的搜索引擎系统存在着对于不同用户的同样查询会返回相同结果的弊端,而且用户
曲面造型技术经过几十年的发展,已经形成了一套比较成熟的理论和方法,在计算机辅助设计与制造(CAD/CAM)、计算机辅助几何设计(CAGD)和计算机图形学(CG)等领域有着广泛的应用。非均匀
随着传感网络技术的飞速发展和应用领域的不断拓展,各数据生产部门纷纷开展传感网络在生态环境、气候变化及灾害预警等领域的应用研究,形成了海量的传感网络数据资产。长期以来
学位
差分进化(DE)算法已经成为解决连续型数值优化问题的经典方法。本文的第一部分,把简化群优化算法的交叉策略、协方差矩阵学习策略与传统的差分进化算法结合,提出一个新的DE算
随着博客(Blog)的迅猛发展,Blog网页数量成几何级数增长,如何在海量的Blog页面中找到自己感兴趣的Blog网页显得尤为重要。于是针对Blog页面的专业搜索引擎(Blog搜索引擎)诞生
节点定位技术是WSN的重要支撑技术之一,也是众多应用的前提和基础,对无线传感器网络的监测活动起着至关重要的作用。现有的节点定位算法中,利用配备GPS的锚节点辅助定位,但由于锚
网络的提速和网页技术的发展为在线视频提供了广阔的空间,普通网民就可以轻松的上传、下载、观看在线视频。但在线视频在高速发展的过程中出现了许多问题,如盗版视频问题严重、
在无线传感网中,传感器节点布置在相应的应用领域,用于检测周边环境并发送检测值给Sink。由于传感器节点资源受限、部署环境恶劣而且采用无线多跳通信方式等特点,易受到攻击
随着信息技术的飞速发展,数字媒体在人们日常生活中扮演着越来越重要的角色.但是由于数字产品本身存在容易被非法篡改、复制、传播等特点,它们在为生活提供便利的同时也产生了