论文部分内容阅读
随着计算机在各行各业中应用的普及和发展,每一天都会积累大量的数据,传统的数据库管理系统不能满足现实的需求。数据挖掘技术这一新的概念改变了人们使用数据的方式,揭示了隐含的、先前未知的且具有潜在的有价值的信息。其中,聚类分析是数据挖掘过程中一个重要的预处理步骤。聚类分析的结果可以作为数据分析和知识发现的依据,揭示数据间的内在联系和差异。现有的聚类算法主要分为基于划分的算法,基于层次的算法,基于密度的算法,基于网格的算法和基于模型的算法等。K-means聚类算法是一种常用的基于划分的聚类算法,是一种无监督学习方式,即针对事先不带有类别标签的数据,根据相似性度量方法划分簇类,使得同一个簇类内的数据之间具有较高相似度,不同簇类的数据之间具有较高相异度。可见,相似性度量是聚类分析的前提和基础,是划分数据簇类的依据,采用适当的相似性度量方法,会得到较优的聚类结果,后续的聚类分析才有意义。但是,由于传统K-means聚类算法采用欧几里得距离作为相似性度量方法,欧几里得距离函数决定了该算法只适用于大小均匀且差别不大的数据。针对这一缺点,本文对传统K-means聚类算法做了如下改进工作:(1)基于I-divergence测度的K-means聚类算法。I-divergence是一种非对称的测量方法,用于测度两个概率分布之间的差异。它与欧几里得距离相似,都可以测量观测值与生成值之间的差异。因此,采用I-divergence测度作为相似性度量方法,从而代替欧几里得距离,克服其只适用于分布均匀、大小相似的类球形数据这一缺点。通过仿真数据和UCI数据进行实验,结果表明,基于I-divergence测度的K-means聚类算法的准确率高于传统K-means聚类算法,类内误差平方和值远远小于传统K-means聚类算法,尤其是类椭球形数据的聚类效果明显优于传统K-means聚类算法聚类效果。因此,基于I-divergence测度的K-means聚类算法适用于非负、类椭球形数据。(2)基于Max Entropy测度的K-means聚类算法。Max Entropy被广泛应用于解决正定的、非负的线性逆问题。Max Entropy最明显的特征是,它将没有独立性要求的不同特征属性整合为一个概率模型。此外,它还被用于测量观测值和生成值之间的差异程度。因此,采用Max Entropy测度作为相似性度量方法,从而代替欧几里得距离,克服其只适用于分布均匀、大小相似的类球形数据这一缺点。通过仿真数据和UCI数据进行实验,结果表明,基于MaxEntropy测度的K-means聚类算法的准确率高于传统K-means聚类算法,类内误差平方和值远远小于传统K-means聚类算法,尤其是类椭球形数据其聚类效果明显优于传统K-means聚类算法聚类效果。因此,基于Max Entropy测度的K-means聚类算法也适用于类椭球形数据。(3)将改进后的K-means聚类算法应用于实际问题中,对东三省主要地区农业发展进行定位研究。首先选取的5个一级指标,即粮食作物、水稻、玉米、大豆和化肥施用量,二级指标是分别选取各个农作物的种植面积、产量和单产,将东三省的36个主要地区根据所选指标进行聚类分析,划分成3类。由聚类结果可知,第一类地区包括哈尔滨等在内的4个黑龙江省地区,第二类地区包括辽源、沈阳、伊春等26个地区,其中包括辽宁省主要地区,部分黑龙江省和吉林省地区,第三类地区包括长春、吉林、大庆、鞍山等6个地区,其中包括4个吉林省主要地区和两个工业地区。结果表明,黑龙江省为主要农业发展大省,主要农作物产量、面积和单产都优于其他两省;辽宁省虽为重工业大省,但是其农业发展有一定优势,主要农作物产量、面积和单产值处于东三省第二位;吉林省的主要农作物产量、面积和单产值位于东三省的第三位。本文通过对传统K-means聚类算法的改进研究,为聚类算法的研究和改进提供理论助力,拓宽实际应用范围,应用到农业生产领域、机器学习、商业决策和模式识别等领域。