K-means聚类算法的改进研究及应用

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:ruyingxiangsui1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量、杂乱无章的数据中,提取到深层且有价值信息的过程。数据挖掘应用涉及到多种技术,主要包括聚类、分类、关联以及预测控制等方面。其中,聚类分析是数据挖掘的一个重要方向,是一个把数据集对象划分成不相容子集的过程。目前,聚类分析已经广泛地运用于很多领域,如Web搜索、人工智能、信息检索、图像模式识别、空间数据库技术和市场营销等。目前,被人们熟知且广泛使用的聚类方法有:划分方法、层次方法、基于密度的方法、基于网格的方法和基于概率模型的方法[1]。  k-means算法是常用的划分聚类算法,具有原理简单、便于理解和实现、能处理大数据集等优点。给定训练数据集和聚类数,该算法即可依据准则函数将数据集迭代聚类,直到函数不再发生变化或达到约定的阈值为止。该算法的缺点主要有:聚类数需要事先给定,聚类结果对选取的初始中心点和数据集中的噪声点敏感和聚类结果可能是局部最优解等。  本文主要针对k-means算法中聚类数需要事先给定、初始中心点的选取对聚类结果影响较大以及聚类结果对异常点敏感这三方面的缺点做出了相应改进,提出了一种改进的基于最大最小距离的k-means聚类算法。该算法在利用最大最小距离方法时,先利用分治算法思想把参数值θ所在的理论区间分解成较小区间,在每一个小区间上选取一个数作为θ值,依据不同的θ值分别对数据集进行聚类,去掉聚类效果不好的区间,然后利用连续属性离散化的思想对剩余区间进行离散,θ取遍离散化后的区间端点值,对数据集进行聚类,利用95%的有序BWP指标值的均值来衡量聚类结果,均值越大,说明聚类效果越好,最大的均值对应着最好的聚类结果。该改进算法解决了k-means聚类算法的聚类数需要事先给定、对初始中心点的选取和异常点较敏感的问题。为验证改进算法的有效性,文章选取UCI数据库中的三个数据集,并分别用不同的聚类算法进行分析,结果表明改进算法准确率更高,具有更好的聚类效果。  最后,文章选取浙江省杭州市部分电信用户数据集为研究对象,一方面,利用传统k-means算法、基于最大最小距离的k-means算法和改进k-means算法分别对其进行聚类分析,结果表明改进算法聚类效果更好,类簇间差异更明显;同时,针对不同类别群体进行特征总结分析,定义类别名称,并制定差异化的营销方案,以此来提高行业服务质量。另一方面,根据logistic建模步骤及方法,本文利用历史数据训练logistic分类模型,对细分人群进行流失率预测,以便企业提前做好对流失用户的挽留措施。
其他文献
综合运用地质、测井、地震及分析化验等资料,对垦东凸起北部地区古近系沉积体系进行了较为全面系统的研究;分析认为该地区古近系发育有扇三角洲、三角洲、碳酸盐岩滩坝、砂质滩
经典的金融经济学都是建立在有效市场的假说下。在有效市场假说下,股票价格服从几何布朗运动,收益率服从正态分布且相互独立,这给我们使用数学工具来研究金融市场提供了方便。但
学位
本文讨论的图均为有限简单的连通图。  1907年Mantel[16]证明了Turán定理[11]的一个特例:边数大于等于n2/4的非二部图一定含有一个三角形,由此,Erdos,Gallai,Andrásfai,Sós和H
公元二零一五年九月九日,重阳节.时至今日,登高,遍插茱萸的传统习俗几乎消失殆尽.匆匆行进的人群,似乎永远有忙不完的工作,聚不尽的应酬.抬头所见,远方是迷蒙一片,几只不知名
期刊
学位
我在文科生活中,已经养成了一定的学习习惯,可以利用科学的方式开展学习活动,总结文科知识内容学习经验,并取得了良好成绩.基于此,下文针对我自己的文科学习思维方式,总结了
自动机的最小化问题一直是自动机理论中比较重要和核心的问题之一,本文主要讨论了两类自动机的性质和最小化问题。一类是格值Moore型有限自动机,另一类是基于模糊点的格值有
加强党的执政能力建设,必须紧紧抓住决策能力建设这个重要环节。决策能力和水平提高了,领导水平和执政水平才会提高,才能全面建设小康社会,将中国特色社会主义事业不断推向前
无环图G的k顶点单射染色是指k种颜色1,2,...,k,对于图G的各点的一个分配,使得具有公共邻点的两点染以不同的颜色.G的单射色数是使得G为k单射可染的数k的最小值,记为xi(G)。  单射