论文部分内容阅读
数据挖掘是从大量、杂乱无章的数据中,提取到深层且有价值信息的过程。数据挖掘应用涉及到多种技术,主要包括聚类、分类、关联以及预测控制等方面。其中,聚类分析是数据挖掘的一个重要方向,是一个把数据集对象划分成不相容子集的过程。目前,聚类分析已经广泛地运用于很多领域,如Web搜索、人工智能、信息检索、图像模式识别、空间数据库技术和市场营销等。目前,被人们熟知且广泛使用的聚类方法有:划分方法、层次方法、基于密度的方法、基于网格的方法和基于概率模型的方法[1]。 k-means算法是常用的划分聚类算法,具有原理简单、便于理解和实现、能处理大数据集等优点。给定训练数据集和聚类数,该算法即可依据准则函数将数据集迭代聚类,直到函数不再发生变化或达到约定的阈值为止。该算法的缺点主要有:聚类数需要事先给定,聚类结果对选取的初始中心点和数据集中的噪声点敏感和聚类结果可能是局部最优解等。 本文主要针对k-means算法中聚类数需要事先给定、初始中心点的选取对聚类结果影响较大以及聚类结果对异常点敏感这三方面的缺点做出了相应改进,提出了一种改进的基于最大最小距离的k-means聚类算法。该算法在利用最大最小距离方法时,先利用分治算法思想把参数值θ所在的理论区间分解成较小区间,在每一个小区间上选取一个数作为θ值,依据不同的θ值分别对数据集进行聚类,去掉聚类效果不好的区间,然后利用连续属性离散化的思想对剩余区间进行离散,θ取遍离散化后的区间端点值,对数据集进行聚类,利用95%的有序BWP指标值的均值来衡量聚类结果,均值越大,说明聚类效果越好,最大的均值对应着最好的聚类结果。该改进算法解决了k-means聚类算法的聚类数需要事先给定、对初始中心点的选取和异常点较敏感的问题。为验证改进算法的有效性,文章选取UCI数据库中的三个数据集,并分别用不同的聚类算法进行分析,结果表明改进算法准确率更高,具有更好的聚类效果。 最后,文章选取浙江省杭州市部分电信用户数据集为研究对象,一方面,利用传统k-means算法、基于最大最小距离的k-means算法和改进k-means算法分别对其进行聚类分析,结果表明改进算法聚类效果更好,类簇间差异更明显;同时,针对不同类别群体进行特征总结分析,定义类别名称,并制定差异化的营销方案,以此来提高行业服务质量。另一方面,根据logistic建模步骤及方法,本文利用历史数据训练logistic分类模型,对细分人群进行流失率预测,以便企业提前做好对流失用户的挽留措施。