基于k均值聚类算法的实例分析

来源 :大经贸 | 被引量 : 0次 | 上传用户：wangyang062011

【摘要】

：

【作者】

：

黄玉珠

【出处】

：

大经贸

【发表日期】

：

2018年8期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】 k均值聚类算法是一种常见的对数据进行分类的算法。本文通过k均值聚类算法对UCI数据库中的Glass Identification数据集进行分析，最后将分类结果与真实结果比较，观察分类是否准确，从而实现k均值聚类算法的数据分析。
　　【关键词】 k均值聚类算法数据分析分类
　　1 引言
　　聚类分析是数据挖掘的一个发现信息的方法，已经被人们深入的研究了很长时间，主要的是对基于距离的聚类分析的研究。聚类是一种无监督的学习，而分类正好与它相反，分类是一种有监督的学习，聚类主要是划分无标记的对象，使这些无标记的对象变的有意义，对预先定义的类与带类标记的训练实例不具有依赖性。所以聚类分析在我们的日常生活中的应用范围非常广泛：
　　（1）在商业上，聚类可以根据消费者数据库里面所记录的数据信息，对消费者进行划分，根据各个消费者的特征，以帮助市场营销员按照市场需求及时调整货物的摆放次序等一系列营销计划的实施；
　　（2）在社会学中，聚类用来发现目前社会结构组成中潜在的社会结构；
　　（3）在网络挖掘中对互联网上批量的数据信息进行有效的划分与分类，实现信息的有效利用，对数据信息检索效率方面有显著提高；
　　（4）在生物信息学中，在大量的基因群中发现功能相似的基因组，对基因因功能不同进行划分对其固有的结构特征进行分析，来更好的为我们的医学发展提供有利条件；
　　（5）在空间数据库领域，聚类分析能对相似地理特征区域及它们的人和环境的不同特征进行识别，来研究地域文化提供条件。
　　本文主要基于k均值聚类算法对数据进行实例分析，通过比较分类结果的准确率，研究k均值聚类算法的分类效果。
　　2 基于K均值聚类算法的数据分析
　　2.1 K均值聚类算法。聚类是一种无监督的学习方法。所谓无监督学习是指事先并不知道要寻找的内容，即没有目标变量。聚类将数据点归到多个簇中，其中相似数据点处于同一簇，而不相似数据点处于不同簇中。聚类中可以使用多种不同的方法来计算相似度。本文使用了聚类算法中的k均值聚类，由于该算法的简洁和效率，使得它成为所有聚类算法中最广泛使用的。该算法首先先随机选取K个对象作为初始的聚类中心；然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心，聚类中心以及分配给它们的对象就代表一个聚类，一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：
　　1）没有（或最小数目）对象被重新分配给不同的聚类。
　　2）没有（或最小数目）聚类中心再发生变化。
　　3）误差平方和局部最小。
　　2.2 实例分析。本文使用了K均值聚类算法对玻璃数据进行分析，这是一种分类简单快速的算法，但是也有很大的限制性，比如对极端值的变化非常敏感。现在我们假设只知道关于玻璃数据中9个特征指标的值，通过使用K均值聚类算法来将数据进行分类，最后通过与真实分类结果比较，看分类结果是否准确。
　　2.2.1数据集介绍。通过选取UCI数据库中的Glass Identification数据集进行分析，该数据集对玻璃种类分类的研究有利于犯罪学的调查研究。该数据集包括了用于进行玻璃分类的9种特征，分别为折射率（RI）、以及玻璃中的钠（Na）、镁（Mg）、铝（AI）、硅（Si）、钾（K）、钙（Ca）、钡（Ba）、铁（Fe）含量，所有数据都为连续型变量。
　　整个数据集共214个样本，将玻璃分为7类，分别是经过浮动处理的建筑物窗户、未经过浮动处理的建筑物窗户、经过浮动处理的车辆窗户、为经过浮动处理的车辆窗户（该数据集中未出现）、容器、餐具、吊灯。
　　2.2.2数据预处理。为了便于与真实分类结果的比较，这里将数据集处理为两种状态：一种是只包括关于玻璃的9个特征指标的值，即去掉其中的玻璃分类标签；另一种是只包含玻璃分类的真实标签。
　　2.2.3数据分析。通过使用python3.7软件实现K均值聚类分析算法，对玻璃数据进行分析得出结果，如图1。从图1可以看出，每个颜色代表一种分类，每一类分类明显，虽然存在个别异常值，但是大致将玻璃分为6类，似乎分类结果还不错。但是将该结果与真实结果比较后发现，准确率却只有24.77%，分类效果很不理想。进一步观察分类结果图，可以发现有很多点都偏离各簇，这说明了K均值聚类可能因其非常容易受异常值的影响，导致分类不准确。
　　3 结论
　　经过对K均值算法进行实例分析，发现该算法虽然原理简单，容易实现，但是有许多需要改进的地方，其中一点是对噪声和离群值非常敏感，还有一点就是收敛太慢，只是收敛到了局部最小值，而并非全局最小值（局部最小值指结果还可以但并非最好结果，全局最小值是可能的最好結果）。
　　为克服K-均值算法收敛于局部最小值的问题，所以可以引入二分K-均值对算法进行优化，该算法首先将所有点作为一个簇，然后将该簇一分为二，之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对"其划分是否可以最大程度降低SSE（Sum of Squared Error，误差平方和）的值，上述基于SSE的划分过程不断重复，直到得到用户指定的簇数目为止。
　　上述的K-均值算法以及二分K-均值算法并非仅有的聚类算法，另外称为层次聚类的方法也被广泛使用。
　　【参考文献】
　　[1] 易燕飞.基于K-means聚类的数据分析.现代制造技术与装备.2017，4：8-13.

其他文献

《论美国的民主》

一、前言　　今天我们在谈论政治体制，在探讨我国行政体制改革以及中国特色的社会主义政治改革的方向时，总是不得不提到美国。作为一个仅仅只有四百年历史的国家，却在这样短短的时间成为当今世界唯一的“超级大国”。这使我不自觉的把目光投向了它，试图为我国的政治发展寻找灵感。无独有偶，早在19世纪，法国著名的政治思想家托克维尔就怀揣着一颗探寻法国政治未来出路的赤诚之心踏上了远在大洋彼岸的美国，并对其进行了长达9

期刊

水彩画创作方法研究

【摘要】水彩画作为一个独立的画种成立的历史，可以追溯到北欧文艺复兴时期的画家丢勒；他创造了很多绘画作品，但他习惯将它们作为油画创作的素材。真正使水彩画作为一个画种独立的发展起来的应该是荷兰，是荷兰画家首先把水彩画作为独立的艺术创作。把水彩发挥到有世界影响的是十六到十九世纪的英国，是英国努力使水彩成为一个有广泛影响的画种，在历史上达到了空前绝后的巅峰境界。水彩画在世界范围内的广泛传播，首先是由于

期刊

浅谈古建筑规划与现代节能设计关系

【摘要】古建筑利用规划选址、建筑朝向、建筑间距以及建筑之间的相互组合关系，还有单体设计、出挑屋檐、合理开窗、利用自然风、水系等自然手段来达到建筑设计上的节能保温，降低能耗。值得我们学习这种从建筑的功能性出发来做设计和规划的态度。　　【关键词】建筑节能规划　　随着社会的发展，工业的发达，气候变暖的现象也越来越严重，就连北极的冰川也在加速融化，同时也带来了越来越多的自然灾害的发生。因此全世界

期刊

“互联网+”时代地方本科院校大学生创业实践的探索

【摘要】 “互联网+”时代的到来为大学生创业实践提供了新机遇。地方本科院校也积极鼓励大学生进行创业实践，取得显著成效。但是也存在创业教育师资队伍及课程建设不足、资金投入不足、创业教育模式单一及学生创业意识薄弱等问题，结合“互联网+”这种新经济形态，地方本科院校应紧紧依托院校特色，完善创业教育师资队伍建设，加大创业教育资金投入，创新创业教育模式，努力培育学生创新创业意识，不断为地方本科院校大学生就

期刊

十八大以前我国党际交往的历程及成果

【摘要】政党政治存在于许多国家，政党间的国际交往不断扩大，政党外交得到世界各国广泛的认同。政党不仅主导一国内政，而且也影响一国外交，并通过自身制定的外交政策的作用影响着国际政治。本文旨在对新时代以前中国政党外交的变化发展作一个简单的梳理，主要介绍政党外交的相关概念和中共政党外交的历史发展脉络。　　【关键词】新时代以前党际交往历程成果　　政党外交，指的是社会主义国家的执政党在为特定的目的

期刊

L出租车公司绩效管理改进探究

【摘要】近年来，移动互联网与出租车行业结合，提高了旅行效率、方便了出行，但是对传统的出租车行业形成冲击，行业矛盾进一步凸显。网约车的发展不仅在业态上对传统出租车公司造成冲击，也激发出租车公司进一步完善绩效管理等内部管理，提高自身竞争力。本文以L出租车公司为例，分析了该公司在人力资源管理方面存在的问题，并从改进绩效管理的角度提出了合理化建议，以期对国内出租车公司在绩效管理方面提供借鉴。　　【关键

期刊

基于4P理论的小仪器及耗材业务营销策略改进研究

【摘要】国家科研力量的提高推进了科研仪器贸易行业的稳定发展。近几年来，科研仪器贸易行业得到政府部门及社会机构的双向支持，发展速度已有所提高。考虑到国内科研仪器贸易行业发展仍存在一定的制约因素，从经典的4P营销理论出发，聚焦小仪器耗材业务，对以F公司为代表的科研仪器贸易企业的营销策略进行分析并提出改进建议，以此为F公司及其他科研仪器贸易企业制定营销策略带来启示。　　【關键词】科研仪器市场营销

期刊

抗战时期的云南马帮驿运

1937年7月7日“卢沟桥事变”爆发，日军迅速占领我国北方的京津地区及华中、华东和华南等地区不少城市，就连沿海几乎所有的港口也都已沦入敌手。此时，物资供应问题能很好地解决对中国抗战顺利进行起着重要作用，有一子活全盘皆活的重大意义。1938年，国民政府迁都重庆后，国际援华物资及进口的各种战略物资主要通过滇越铁路和滇缅公路进入中国。为掐掉我国抗战物资运输线，1940年，日军侵入越南北部，截断了滇越

期刊

《湖南农民运动考察报告》中的群众路线思想对当代农村组织建设的启示

【摘要】《湖南农民运动考察报告》（下文简称《报告》）是毛泽东在革命时期的文章，在此篇文章中，他预估了农民在中国革命中的将起到巨大的作用，并指出了在农村建立政权，组织农民武装，具有十分的必要。他分析了农民的各个阶层，阐述了发动和组织群众的革命思想，认可农民革命的正义性。本文就《报告》中所体现的群众路线思想，谈一谈其对当前农村组织建设的启示。　　【关键词】毛泽东群众路线农村组织建设　　一、《

期刊

浅析中国共产党领导下的小康社会建设思想

【摘要】本文阐述了中国共产党领导下的小康社会建设思想，从毛泽东的“大同”，邓小平“小康”概念的提出和“三步走”的小康社会蓝图设计，江泽民“新三步走”的全面建设小康社会战略规划，胡锦涛全面建成小康社会的前景目标战略，到习近平关于“中国梦”的小康思想诠释，展现的是一个小康社会蓝图由远及近、思想内涵不断丰富的过程。　　【关键词】小康思想中国共产党目标建设　　自邓小平提出“小康社會”和“三步走

期刊

基于k均值聚类算法的实例分析

与本文相关的学术论文