机器学习kmeans聚类算法在中国足球现状分析中的应用

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:danble
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]近年来,人工智能(Artificial Intelligence)大火,而其中机器学习(Machine Learning)领域为其重点。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。本文章中笔者尝试用机器学习经典算法之一——kmeans聚类算法,尝试科学客观分析中国足球现状,希望对如今中国足球有所启发,有十分重要的现实意义。
  [关键词]kmeans,中国足球,现状分析,机器学习,聚类分析
  中图分类号:S256 文献标识码:A 文章编号:1009-914X(2018)04-0193-02
  人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等。笔者对机器学习领域产生了极大的兴趣,利用机器学习处理分析问题越来越成为当今社会发展的需要。笔者也想运用机器学习知识为现实问题提供一些意见和建议。
  笔者对中国足球有很大的激情,在国足这些年大刀阔斧的改革以及努力后,结果还是有些令人失望。在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平,希望以此作为科学依据帮助国足认清其现状,帮助其发展。
  一.kmeans算法基本介绍
  K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
  kmeans聚类算法具体流程简要介绍如下:
  假设要把样本集分为k个类别,算法描述如下:
  (1)随机在数据集中选择k个数据元组作为初始中心;
  (2)对任意一个样本,求其到k个聚类中心的距离,将该样本归到距离最近的聚类中心所在的類;
  (3)利用均值方法更新该类的中心值;
  (4)对于所有的k个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
  本利
  二.kmeans算法实际应用过程
  在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平。具体做法如下:
  首先建立数据模型,即对亚洲各个国家的足球水平进行量化。
  整理2010年世界杯以及2014年世界杯亚洲国家最终比赛成绩如表1:
  根据以下规则进行量化:
  进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋40,预选赛小组未出线的赋予50。为避免取值范围大的属性对距离的影响高于取值范围小的属性,为了更真实的反映真实的相异度,对属性值进行规格化。即将各个属性值按比例映射到相同的取值区间,平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
  Y=(x-min)/(max-min)
  量化结果如表2:
  kmeans聚类算法分析中国足球现状流程图如图1:
  利用kmeans算法进行聚类过程中进行了四次迭代:
  第一次三个聚类中心为:
  [[0.59624706 0.4547206]
  [0.79031384 0.94496331]
  [0.50284657 0.41595118]]
  第二次三个聚类中心为:
  [[1. 0.561]
  [0.74625 0.878]
  [0.0435 0.427]]
  第三次三个聚类中心为:
  [[1. 0.691]
  [0.6955 0.9024]
  [0.0435 0.427]]
  第四次三个聚类中心为:
  [[1. 0.8455]
  [0.565 0.86057143]
  [0.0435 0.427]]
  最终聚类结果为:
  一流队伍:日本,韩国;
  二流队伍:伊朗,伊拉克,卡塔尔,黎巴嫩,乌兹别克斯坦,阿曼,印尼;
  三流队伍:中国,沙特,泰国,越南,巴林,朝鲜。
  图像展示(点为聚类中心,其余为各个国家的数据)(图2):
  根据国际比赛数据和kmeans算法科学分析:国足近几年 ‘毋庸置疑’的处在亚洲三流水平,以上的分析数据不仅告诉了我们聚类信息,从中还可以定量分析出各个球队之间的差距, 如卡塔尔,黎巴嫩和伊朗是冲击一流队伍最有希望的二流队伍。
  根据本次分析尝试,笔者更深刻的了解了K-means算法:
  kmeans算法优点无可比拟:该算法本身具有优化迭代功能,为克服少量样本聚类的不准确性,在已经求得的聚类上再次进行迭代修正,优化了初始监督学习样本分类不合理的地方。
  但其缺点也很明显:首先,在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;其次,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;最后,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
  在本实验中,当初始类中心选择不当时出现不同的聚类结果如图3:
  总之,人工智能产业发展十分迅速,笔者也对其有强烈的兴趣,本文中笔者尝试应用kmeans聚类算法完成了对中国足球现状的初步分析,可以根据数据来科学准确的得出结论:中国足球目前在亚洲的确处于三流水平。在近几年关于中国足球是否进步的争论一直不停的情况下,本文根据聚类结果显示,中国足球还处于劣势,有助于帮助认清楚中国足球的现状,并且从中可以定量分析出各个球队之间的差距,对国足的进步有促进意义。
其他文献
[摘 要]移动网核心网网优为更深入的分析问题的本质,对收集到的中兴软交换的失败观察内容,进行了详细整理和归纳。通过理顺分析思路和总结具体分析方法等工作,对造成位置更新失败的原因进行了深入有条理的分析。从宏观(发生失败的地区)到微观(发生失败的基站),从现象(造成失败的直接原因)到本质(造成失败的根源类型及原因),分析了位置更新失败产生原因的种种情况,并为下一步工作指明了方向。  [关键词]位置更新
期刊
[摘 要]金属锡在工业上具有重要的应用,在对于铜尾矿中锡的含量进行测定中,ICP-OES即电感耦合等离子体-发射光谱法发挥着重要的作用,对于样品的检测能够获得比较理想的结果,本文针对此进行了相应地论述。  [关键词]ICP-OES;铜尾矿;电感耦合等离子体-发射光谱法  中图分类号:S744 文献标识码:A 文章编号:1009-914X(2018)04-0181-01  鉴于锡在矿业生产中的重要作
期刊
[摘 要]AVO即地震反射波振幅随炮检距变化是近几十年发展起来一项特殊叠前地震资料处理解释技术。三维地震资料的偏移距分布情况直接影响AVO处理的效果。一般以往设计观测系统施工时并没有兼顾AVO技术的特殊需要,造成AVO属性在一定程度上失真。本文针对AVO技术分析了三维地震观测系统设计的要求,提出了一种AVO观测系统优化设计思路,既适合常规三维地震勘探,又能满足AVO技术的特殊需要。在研究过程中所存
期刊
[摘 要]上湾煤矿三盘区在煤炭井下运输中,由于设备满负荷运行,胶带机在运行过程中的能耗指标偏高,通过对集运一部更换不锈钢托辊和更换芳纶带面,集运一部的效能明显提高,平均电流下降67A,同比降低16.8%,提升了集运一部的整体运输能力,同时每年直接节约各项费用约190万元。  [关键词]胶带机;不锈钢托辊;芳纶带面  中图分类号:S824 文献标识码:A 文章编号:1009-914X(2018)04
期刊
[摘 要]常规船舶防腐是在一般条件下,对金属船舶等起到防腐蚀作用,保护船舶使用寿命。船舶管理是运输畅通、安全有力保障。船舶管理工作涉及到船舶防腐、管、养、修、造及报废等多方面内容,如管理不当,会直接影响设备的正常运行,延误正常工作,甚至危及航道、船舶和人身的安全。有序、有效的船舶设备维修、保养、防腐管理可以进一步促进船舶使用率,增强安全性,同时可以合理降低使用成本。  [关键词]海洋船舶;维修养护
期刊
[摘 要]作为高速公路现代化管理的重要支撑系统,通信系统在高速公路领域内一直发挥着重要作用,其中四川交通信息化发展,不仅有利于四川省交通事业发展目标的顺利实现,而月也有利于四川交通产业结构的战略性调整。本文整体介绍了新一代传送网技术OTN及其在四川高速公路通信网中的应用。  [关键词]OTN;四川高速公路;通信网;应用  中图分类号:S184 文献标识码:A 文章编号:1009-914X(2018
期刊
[摘 要]通信技术的发展给人们之间信息的传递带来了很大便利,促进了通信行业的快速发展。有线传输技术是通过光缆以及电缆进行传输,长期以来,在人们的通信活动中占有重要的位置。本文对我国传输技术的发展现状以及通信工程传输技术的特征进行分析,概述有线传输技术的应用,针对有线传输技术的发展趋势提出相应的改进措施。  [关键词]通信工程;有线传输技术;应用;改进  中图分类号:S724 文献标识码:A 文章编
期刊
[摘 要]随着航天器研制任务的增加以及运输环境的变化,现有包装箱在运输过程中要求更加严格,包括公路、铁路、空运以及海运等,存储环境也有了较大变化,这就要求包装箱自身能够适应各种环境,包装箱测控系统在不同环境下都可以正常稳定工作,尤其是航天器运输过程中,可靠性要求更加严格,本文着重介绍了运输过程中不同环境下测控系统的防护措施及验证。  [关键词]包装箱 测控系统 环境适应性  中图分类号:S784
期刊
[摘 要]市政工程与人们的日常生活息息相关,本文从我国市政工程施工技术的现状出发,对施工过程中的常见问题进行分析,并从提高施工人员在综合素养、严格控制测量误差、加强材料质量管理、选择合适的施工设备以及提升施工技术的管理质量等方面提出一些提高市政工程施工效果的对策,希望能为我国市政工程的发展有所帮助。  [关键词]市政工程;施工技术;常见问题;对策  中图分类号:S276 文献标识码:A 文章编号:
期刊
[摘 要]长拉山隧道施工至K82+065时,因掌子面围岩破碎,涌水量极大,造成塌方,针对掌子面遇到的实际情况,通过调整马丽散帷幕注浆参数和工艺,对塌方体进行有效的固结和止水,为后续开挖掘进提供安全可靠的工作环境,同时为高海拔隧道类似施工提供了实践经验。  [关键词]高海拔隧道;塌方;马丽散;注浆  中图分类号:S524 文献标识码:A 文章编号:1009-914X(2018)04-0170-01 
期刊