K-means聚类方法的改进及其应用

被引量 : 155次 | 上传用户:lyh682020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机在各行各业中应用的普及和发展,每一天都会积累大量的数据,传统的数据库管理系统不能满足现实的需求。数据挖掘技术这一新的概念改变了人们使用数据的方式,揭示了隐含的、先前未知的且具有潜在的有价值的信息。其中,聚类分析是数据挖掘过程中一个重要的预处理步骤。聚类分析的结果可以作为数据分析和知识发现的依据,揭示数据间的内在联系和差异。现有的聚类算法主要分为基于划分的算法,基于层次的算法,基于密度的算法,基于网格的算法和基于模型的算法等。K-means聚类算法是一种常用的基于划分的聚类算法,是一种无监督学习方式,即针对事先不带有类别标签的数据,根据相似性度量方法划分簇类,使得同一个簇类内的数据之间具有较高相似度,不同簇类的数据之间具有较高相异度。可见,相似性度量是聚类分析的前提和基础,是划分数据簇类的依据,采用适当的相似性度量方法,会得到较优的聚类结果,后续的聚类分析才有意义。但是,由于传统K-means聚类算法采用欧几里得距离作为相似性度量方法,欧几里得距离函数决定了该算法只适用于大小均匀且差别不大的数据。针对这一缺点,本文对传统K-means聚类算法做了如下改进工作:(1)基于I-divergence测度的K-means聚类算法。I-divergence是一种非对称的测量方法,用于测度两个概率分布之间的差异。它与欧几里得距离相似,都可以测量观测值与生成值之间的差异。因此,采用I-divergence测度作为相似性度量方法,从而代替欧几里得距离,克服其只适用于分布均匀、大小相似的类球形数据这一缺点。通过仿真数据和UCI数据进行实验,结果表明,基于I-divergence测度的K-means聚类算法的准确率高于传统K-means聚类算法,类内误差平方和值远远小于传统K-means聚类算法,尤其是类椭球形数据的聚类效果明显优于传统K-means聚类算法聚类效果。因此,基于I-divergence测度的K-means聚类算法适用于非负、类椭球形数据。(2)基于Max Entropy测度的K-means聚类算法。Max Entropy被广泛应用于解决正定的、非负的线性逆问题。Max Entropy最明显的特征是,它将没有独立性要求的不同特征属性整合为一个概率模型。此外,它还被用于测量观测值和生成值之间的差异程度。因此,采用Max Entropy测度作为相似性度量方法,从而代替欧几里得距离,克服其只适用于分布均匀、大小相似的类球形数据这一缺点。通过仿真数据和UCI数据进行实验,结果表明,基于MaxEntropy测度的K-means聚类算法的准确率高于传统K-means聚类算法,类内误差平方和值远远小于传统K-means聚类算法,尤其是类椭球形数据其聚类效果明显优于传统K-means聚类算法聚类效果。因此,基于Max Entropy测度的K-means聚类算法也适用于类椭球形数据。(3)将改进后的K-means聚类算法应用于实际问题中,对东三省主要地区农业发展进行定位研究。首先选取的5个一级指标,即粮食作物、水稻、玉米、大豆和化肥施用量,二级指标是分别选取各个农作物的种植面积、产量和单产,将东三省的36个主要地区根据所选指标进行聚类分析,划分成3类。由聚类结果可知,第一类地区包括哈尔滨等在内的4个黑龙江省地区,第二类地区包括辽源、沈阳、伊春等26个地区,其中包括辽宁省主要地区,部分黑龙江省和吉林省地区,第三类地区包括长春、吉林、大庆、鞍山等6个地区,其中包括4个吉林省主要地区和两个工业地区。结果表明,黑龙江省为主要农业发展大省,主要农作物产量、面积和单产都优于其他两省;辽宁省虽为重工业大省,但是其农业发展有一定优势,主要农作物产量、面积和单产值处于东三省第二位;吉林省的主要农作物产量、面积和单产值位于东三省的第三位。本文通过对传统K-means聚类算法的改进研究,为聚类算法的研究和改进提供理论助力,拓宽实际应用范围,应用到农业生产领域、机器学习、商业决策和模式识别等领域。
其他文献
随着我国事业单位改革的逐步深入,公立高校为推动自身发展,也在逐步推行改革。比如:拓宽融资渠道,接受银行贷款和社会捐赠,而不是单纯的依靠财政拨款收入;发展校办企业,增加经
小学低年级是培养学生阅读能力与理解能力的关键时期,这一时期对学生未来的发展也起着关键性的作用,但是很多的教师以及家长都没有意识到这一点,而是将主要方向放在生字书写
会计信息披露的质量的好坏影响到未来衍生金融市场的安定有序发展,因此我们有必要将研究的重点放在传递衍生金融市场信息的会计信息披露上。我国企业在管理制度以及操作层面
通过对Q345E低温冲击性能影响因素的分析和研究,结果表明:钢中夹杂物、中心偏析、异常组织及带状组织是Q345E低温冲击性能不合格的主要原因。通过降低终轧温度,轧后下冷床进
目的调查本院临床抗生素药物的使用情况,为正确、合理、有效使用抗生素提供依据。方法回顾性分析1500例住院患者的病历资料,对使用抗生素药物的种类、用药频率及联合用药等进
自1955年Gardner&Levy最早提出“品牌个性”这个名词以来,关于品牌个性理论的研究经历,经历了缓慢的发展过程。直至1997年Aaker提出著名的品牌个性维度概念,首次将心理学理论引
城建档案记录了在城市建设发展的过程中具有保存价值的各种载体信息,其在城市建设中的作用无可替代。但在信息化逐步加深的今天,国内以传统的纸质档案管理为主的城建档案馆仍
由2007年美国次贷危机而引发的全球金融危机,对世界经济构成了迄今为止仍在继续的巨大伤害。为了尽快从危机中迅速恢复,并在未来世界经济竞争新格局中处于领先地位,发达国家纷纷
当前,随着21世纪我国全面课程改革,教学模式也由“教”为主向“学”为主的方向发展。很多教育工作者建立了适应自身发展特点的教学模式,但是纵观这些成功案例,我们发现都不完