基于划分的聚类算法及其改进研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户：jywang001

【摘要】

：

信息时代最明显的特征之一就是各类数据的爆炸式增长，如何从海量数据中发现有价值的知识，成为人们日益关注的问题。为解决这一问题，数据挖掘技术应运而生。聚类分析作为数据挖掘

【作者】

：

蔡宇浩

【机构】

：

山东科技大学

【出处】

：

山东科技大学

【发表日期】

：

2016年期

【关键词】

：

聚类算法 K-means算法二分K-means算法 K-modes算法数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息时代最明显的特征之一就是各类数据的爆炸式增长，如何从海量数据中发现有价值的知识，成为人们日益关注的问题。为解决这一问题，数据挖掘技术应运而生。聚类分析作为数据挖掘的核心内容，其应用价值得到普遍的认可。在聚类分析方法中，由于基于划分的聚类算法具有简单的思想以及较小的时间复杂度，因此具有较好的研究价值以及广泛的应用领域。　　本文重点研究基于划分的聚类算法，利用基于划分的聚类算法分别聚类数值型和分类型数据。K-means和K-modes算法是两种常用的基于划分的聚类算法，本文分别对两种算法的不足进行研究，并提出了相应的改进算法。论文的主要工作如下：　　（1）利用密度思想以及最大最小法，提出了初始化K-means算法簇中心的新方法。由于传统K-means算法不能确定初始簇中心点，在聚类过程中，如果算法选择的初始簇中心点与实际偏差较大，聚类结果将会很不理想。本文基于密度的方法，提出了利用加权局部方差来计算样本邻域密度的算法。该算法首先选择具有最大邻域密度的数据点作为初始聚类中心点。然后，通过改进的最大最小法逐个获得初始中心点。在UCI数据集上对算法进行实验，结果表明本文提出的算法不仅具有较好的聚类结果，而且稳定性更好。　　（2）将层次型聚类算法的思想运用到K-modes算法中，提出了针对分类型数据的改进算法。在二分K-means算法的基础上，结合了划分型聚类算法与层次型聚类算法的优点，对K-modes算法进行改进。为确定改进算法中K-modes算法的初始簇中心，将样本属性的频率通过加权作为样本的邻域密度，从而选择邻域密度高并且分散的样本作为初始簇中心。在改进算法中，选择划分簇的方法将会影响最终的聚类结果，本文通过定义簇内平均相异度，将具有最大平均相异度的簇作为划分簇。实验表明，该算法具有较好的聚类结果。

其他文献

MIS环境下基于Web的工作流管理系统研究

该文将应用于MIS环境下的基于Web的工作流管理系统进行研究.该文首先分析了解MIS中引入工作流技术的必要性,简要介绍了工作流管理的主要内容、优点及其与Web技术和面向对象技

学位

工作流Web统一建模语言MIS

实时控制网络通讯协议的研究、设计与实现

随着企业信息化在实现国民经济和社会信息化中的基础地位的提高，以及对实时系统研究的不断深入，实时系统的应用也越来越广泛。将实时系统引入到控制网络通信中来改变了原有控制

学位

控制网络实时系统现场总线实时调度

中文文本数据挖掘研究

随着Internet的大规模普及和企业信息化程度的提高，有越来越多的信息积累，其中绝大部分均以文本形式存在。这样，文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现，引起了

学位

数据挖掘文本挖掘文本分类文本关联文本挖掘器

基于Google的大规模搜索引擎的架构和设计技术

该文提出了一个大规模搜索引擎的改进框架,充分利用了超文本的结构,这个结构设计用来有效的爬行和索引网页.产生比现行系统更加满意的搜索结果.这个结构有一个至少拥有2400万

学位

万维网搜索引擎索引Google信息搜索网页排序中文分词

异构多核处理器上实时任务分配算法的研究与实现

异构多核处理器中所集成的处理核心类型的多样性,促成了其对特殊应用(如信号处理、图像处理等)的良好支持,并使得在此基础上的实时调度问题成为了多核实时领域的主流研究方向

学位

异构多核处理器实时系统多核调度Migrate-AssNonMigrate-Ass

基于知识点的课件组织的研究

现代网络技术特别是INTERNET的飞速发展，深刻地影响和改变着人们的工作、生活和学习方式，各种基于互联网的应用服务正不断地应运而生。现代远程教育(Modern Distance Education

学位

：远程教育课件知识点学科知识库学习者模型教学策略个性化学习

分布式前向安全门限算法的研究与应用

该文所做的主要工作有;1该文提出一种新型的前向安全算法-DGUH算法.DGUH算法的主要特点是:利用HASH函数的单向性,在每个时期开始阶段,每个成员利用前一时期的秘密参数作为自

学位

公钥体制数字签名门限体制秘密共享前向安全HASH函数

支持间歇性用户使用行为的SaaS资源管理方法研究

随着互联网技术的发展,SaaS(Software as a Service)作为一种创新的软件应用模式已经兴起。由于其应用领域和实现方式的不同,SaaS应用支持的用户使用行为通常具有一定的间歇

学位

Saas间歇性用户使用行为资源管理资源预测VM调度

基于WEB的工作流技术的研究与实现

工作流管理技术属前沿研究领域，在计算机网络技术、企业管理水平的不断发展中，工作流管理系统(WfMS)已成为支持人们协同工作、实现业务流程自动执行、构建OA应用的基础平台。在

学位

工作流管理系统工作流模型J2EEWEB

实时三维地形渲染系统的研究和开发

该文主要探讨的即是关于大尺度室外地形的实时渲染问题,其主要内容包括：（1）介绍了目前在处理和显示三维地形中常用的典型数据结构和相应的算法;（2）分析研究了典型算法在现代3D硬件

学位

3D实时渲染多级模型视矩拣选遮挡拣选

基于划分的聚类算法及其改进研究

与本文相关的学术论文