基于划分的聚类算法及其改进研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:jywang001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代最明显的特征之一就是各类数据的爆炸式增长,如何从海量数据中发现有价值的知识,成为人们日益关注的问题。为解决这一问题,数据挖掘技术应运而生。聚类分析作为数据挖掘的核心内容,其应用价值得到普遍的认可。在聚类分析方法中,由于基于划分的聚类算法具有简单的思想以及较小的时间复杂度,因此具有较好的研究价值以及广泛的应用领域。  本文重点研究基于划分的聚类算法,利用基于划分的聚类算法分别聚类数值型和分类型数据。K-means和K-modes算法是两种常用的基于划分的聚类算法,本文分别对两种算法的不足进行研究,并提出了相应的改进算法。论文的主要工作如下:  (1)利用密度思想以及最大最小法,提出了初始化K-means算法簇中心的新方法。由于传统K-means算法不能确定初始簇中心点,在聚类过程中,如果算法选择的初始簇中心点与实际偏差较大,聚类结果将会很不理想。本文基于密度的方法,提出了利用加权局部方差来计算样本邻域密度的算法。该算法首先选择具有最大邻域密度的数据点作为初始聚类中心点。然后,通过改进的最大最小法逐个获得初始中心点。在UCI数据集上对算法进行实验,结果表明本文提出的算法不仅具有较好的聚类结果,而且稳定性更好。  (2)将层次型聚类算法的思想运用到K-modes算法中,提出了针对分类型数据的改进算法。在二分K-means算法的基础上,结合了划分型聚类算法与层次型聚类算法的优点,对K-modes算法进行改进。为确定改进算法中K-modes算法的初始簇中心,将样本属性的频率通过加权作为样本的邻域密度,从而选择邻域密度高并且分散的样本作为初始簇中心。在改进算法中,选择划分簇的方法将会影响最终的聚类结果,本文通过定义簇内平均相异度,将具有最大平均相异度的簇作为划分簇。实验表明,该算法具有较好的聚类结果。
其他文献
该文将应用于MIS环境下的基于Web的工作流管理系统进行研究.该文首先分析了解MIS中引入工作流技术的必要性,简要介绍了工作流管理的主要内容、优点及其与Web技术和面向对象技
随着企业信息化在实现国民经济和社会信息化中的基础地位的提高,以及对实时系统研究的不断深入,实时系统的应用也越来越广泛。将实时系统引入到控制网络通信中来改变了原有控制
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了
该文提出了一个大规模搜索引擎的改进框架,充分利用了超文本的结构,这个结构设计用来有效的爬行和索引网页.产生比现行系统更加满意的搜索结果.这个结构有一个至少拥有2400万
异构多核处理器中所集成的处理核心类型的多样性,促成了其对特殊应用(如信号处理、图像处理等)的良好支持,并使得在此基础上的实时调度问题成为了多核实时领域的主流研究方向
现代网络技术特别是INTERNET的飞速发展,深刻地影响和改变着人们的工作、生活和学习方式,各种基于互联网的应用服务正不断地应运而生。现代远程教育(Modern Distance Education
该文所做的主要工作有;1该文提出一种新型的前向安全算法-DGUH算法.DGUH算法的主要特点是:利用HASH函数的单向性,在每个时期开始阶段,每个成员利用前一时期的秘密参数作为自
随着互联网技术的发展,SaaS(Software as a Service)作为一种创新的软件应用模式已经兴起。由于其应用领域和实现方式的不同,SaaS应用支持的用户使用行为通常具有一定的间歇
工作流管理技术属前沿研究领域,在计算机网络技术、企业管理水平的不断发展中,工作流管理系统(WfMS)已成为支持人们协同工作、实现业务流程自动执行、构建OA应用的基础平台。在
该文主要探讨的即是关于大尺度室外地形的实时渲染问题,其主要内容包括:(1)介绍了目前在处理和显示三维地形中常用的典型数据结构和相应的算法;(2)分析研究了典型算法在现代3D硬件