K均值聚类算法中初始点与时间复杂度的改进研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:ctzlhst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据挖掘是在海量的数据中挖掘出潜在的、有价值的信息,这些信息给人们提供帮助。聚类分析是数据挖掘中一个重要的应用。它以“物以类聚,人以群分”的思想,根据对象之间的相似度将相似度大的对象划分到同一类,不同类之间的对象相似度低。由于简单、快速的优点,K均值聚类算法成为聚类分析中最频繁使用的算法之一。   本文针对K均值聚类算法对初始点依赖性及时间复杂度高的特点两方面进行深入研究,为了改善K均值聚类算法对初始点的依赖性,提出了基于迭代密度的K均值算法(简称IDKM),通过不断修改密度阀值,获得较多的聚类中心,并将聚类中心合并,直到达到规定数目的聚类中心,将IDKM算法应用于IRIS数据集进行聚类分析,证明改进算法改善了K均值聚类算法对初始点的依赖性;针对K均值聚类算法时间复杂度高的特点,本文提出基于三角不等式与移除边界的K均值聚类算法(简称TRBKM),在利用三角不等式减少冗余计算的基础上,移除一部分点,减少距离计算量,分别将K均值聚类算法、基于三角不等式的K均值聚类算法、TRBKM聚类算法应用于IRIS、Cloud、Abalone数据集,通过分析实验数据证明TRBKM聚类算法的优越性;最后将IDKM和TRBKM算法应用于学生成绩数据集进行分析,最终聚类结果分析指导学生的学习,实现了 K均值聚类算法在数据挖掘中的应用。
其他文献
压缩感知是一种新型的采样理论,打破了传统的奈奎斯特采样定理的限制,采用更有效的方式来采样信号。由于稀疏信号探索的热度,压缩感知近些年来已经获得了大量的关注。对于本
组管理协议是在网络中实现组播的重要协议,它的主要功能是在主机和路由器之间交换必要的信息,使得路由器知道在连接的网段上有哪些主机需要提供组播服务。   近几年Internet
基于机器视觉的行人检测和跟踪广泛应用于视频监控、三维重构、自主车辆导航等多个领域,对其方法的研究具有十分重要的意义。由于行人本身的一些固有属性、行人之间的遮挡、
近年来随着互联网及计算机控制技术的发展,人们的生活水平不断提高,人们对家居智能化的要求也越来越强烈。嵌入式技术和网络技术越来越深入到了人们的生活当中,人们对居住环
压缩感知,是近几年在信号处理领域出现的新颖的采样理论,该理论显示,通过采集相对较少的感兴趣的信号值就可实现稀疏的或可压缩信号的精确重建,这样就使得信息获取、存储、处理和
随着互联网技术的发展,Internet实时视频传输在远程教育领域起巨大作用,多媒体技术和网络技术在教育板块里的应用是一个热点问题。流媒体(Streaming Media)技术具有边下载边
本文主要研究了云计算环境下的访问控制技术,分析了当前云安全中遇到的用户数据安全与隐私保护的问题。在对当前研究现状进行深入学习和总结后,进行了以下的相关工作:  在复杂
设施花卉是设施农业的重要组成部分,可用来栽培对环境因素要求高的珍贵花卉品种,提高花卉种植的经济效益,处于花卉产业金字塔的顶端。花卉图像的自动分割与特征提取方法研究,
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重
在数字信息时代,图像处理技术在医学、航空航天等领域得到了大量的应用,其中图像分割和图像增强是最具代表性的两种图像处理技术。在很多图像处理算法消耗时间越来越多的情况下