【摘 要】
:
随着科技的迅猛发展,数据挖掘技术与人们生活的关系越来越紧密,各种聚类方法在现实领域的实际应用也成为学者们研究的重要方向。K-means是人们熟知和常用的聚类分析方法之一,
论文部分内容阅读
随着科技的迅猛发展,数据挖掘技术与人们生活的关系越来越紧密,各种聚类方法在现实领域的实际应用也成为学者们研究的重要方向。K-means是人们熟知和常用的聚类分析方法之一,由于具有以下优点:算法简单、容易理解、时间复杂度较低、收敛速度快、对输入的顺序不敏感、能有效的处理大规模的数据集,在实践中得到了广泛的应用。本文深入研究了K-means算法,分析其优点与不足,总结出该算法的不足主要集中在如下两个方面: (1)簇数目K存在盲目性:对于给定的数据集最终要聚类成几簇,没有明确的依据可以遵循,需要凭借个人经验。(2)聚类时未考虑数据集含有多个不同的视图和变量:K均值算法进行聚类时没有考虑到不同视图之间存在差异,而是将多个不同的视图看成一组平面变量进行聚类,并且也未考虑视图中不同变量的权值。对于K-means的上述两个缺点,本文提出了一种改进的自适应双层变量加权K-means算法,该算法不需要预先设置最终的簇数目K,而是根据数据集的特点自动聚成合适的K个簇,并且同时考虑到数据集含有多个不同的视图与变量,而不是将所有数据看成一组平面向量,从而较为有效的改进了K-means算法的缺点。实验结果表明,该算法不需要预先设定最终簇的数目K,而是自动聚出合适的簇数目,当用户对数据集不甚了解时,也能得到较为有效的簇,从而较好的改变了K-means算法K值的盲目性,并且该方法能够同时考虑到数据集含有多个视图与变量的情况,给视图与变量自动设置权重。与此同时,将改进的自适应双层变量加权算法与双层变量加权算法和自适应K-means算法分别进行比较,改进后的算法具有较好的聚类效果和较短的执行时间。
其他文献
文章从语音、词汇、语法三个方面详尽分析了周边汉语土话对标敏瑶语的影响,揭示了标敏瑶语某些异于其他瑶语的语言特点的成因。
<正>3月26日,三一重装国际控股有限公司(简称三一国际)携自主研发的LNG加气站、LNG搅拌车亮相中国国际石油石化技术装备展览会(简称"CIPPE"),标志着三一国际已经成功进驻能源
<正>洞头海洋生态文明教育基地隶属于浙江省海洋水产养殖研究所,是为宣传"海洋生态文明"主题专门设立的科普、教育展示中心,也是省级鱼、虾、贝、藻名优新品种繁育基地、省级
本文主要从教材、教法、学科核心素养和课程四个方面对高中语文教学进行价值反思,发现语文教学的四大特点:其一,语文教材其教学价值表现出原生价值和教学价值的双重性,其核心
高校大学生的主要任务是学习,如何有效完成学业是每个大学生面临的重要问题,而如何有效指导大学生顺利完成学业,是每个高校教育工作者要面对的重要课题。探讨国外高校学业指
简要介绍了生物传感器的工作原理、分类及特点,重点论述了生物传感器在环境污染监测方面应用的研究进展。主要有生化需氧量的测定、细菌总数、有机农药、表面活性剂、酚等的
高校是精神文明和先进文化的传播阵地,建设廉洁文化是高校校园建设的应有之义,也是全社会廉政文化建设的重要组成部分。近年来,随着高校自主办学权逐步扩大和教育环境进一步改善
<正>地处浙江舟山市的普陀山,是国家级风景旅游景区,岛上风光明媚,景色迷人;又是我国四大佛教圣地之一,素有海天佛国之称。普陀山祥生大酒店是该岛屿上正在建设的五星级标准
目的探讨经皮椎体成形术﹙PVP﹚治疗胸腰椎转移性肿瘤的临床效果。方法应用PVP治疗28例54个椎体恶性肿瘤病变。采用视觉模拟评分法对治疗后1周、术后3月、6月、1年疼痛的状况进行
本文以不同时代冠以"十大建筑奇迹"名号的巴比伦空中花园与CCTV项目为线,在从设计理念到设计手法实现过程中,论述屋顶绿化与种植技术的设计运用,希望技术发展能够作为设计手