基于聚类K-Means算法的分析与应用研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别很大。 K-means算法是一种基于划分的聚类算法,它把N个对象划分成K个类,其中聚类数目K是输入参数。该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结果。论文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,并提出了一种有效的改进方法,通过试验证明了改进算法的有效性。同时对该算法中对于计算聚类簇中心对孤立点敏感性这一问题也提出了改进措施,理论和实验都证明了改进方法的有效性。 本论文的另一个重要目的是将数据挖掘中的聚类技术应用到对学生成绩的分析中,根据学生的学习成绩对学生进行聚类同时分析影响每一簇成员学习成绩的主要因素。在此应用中对数据的预处理采用统计学中的标准分技术,该技术解决了在利用原始分进行分析学生学习情况时的弊端,即只根据学生学习成绩的高低来衡量一个学生的学习好坏,而没有考虑到因试题的难易程度等原因而造成的成绩结果。
其他文献
无源定位技术能在自身不辐射的条件下,隐蔽地确定辐射源位置,具有作用距离远、抗干扰能力强的特点,对于提高电子战环境下的生存能力和作战效能具有十分重要的作用。 无源时差
随着计算机技术及人工智能的迅速发展,智能组卷系统的研究逐渐被越来越多的专家学者所重视。由于影Ⅱ向组卷效率和质量的核心因素是组卷算法的设计,因此设计一种行之有效的算法
随着计算机科学和Internet技术的飞速发展,越来越多的企业采用Internet协议标准和分布式对象技术来构筑电子商务或企业内部网,以实现信息发布与数据共享,从产生到现在短短几
随着计算机、网络、通信以及多媒体技术的迅速发展,信息资源急剧增长,网络存储技术成为了当前的研究热点。网络存储技术的特点是以存储设备为中心,数据存储从传统的主机网络
随着网络教育的蓬勃发展,通过网络平台从事学习活动带来了传统教育所没有的优势,然而在网络教育系统中,由于缺少教师的人为干预和指导,往往会产生学习者控制、迷失与认知负荷
随着计算机技术和网络技术的发展对存储系统提出了越来越高的要求,存储容量、I/O速度、系统可用性、扩展性和安全性等方面都面临极大的挑战。面向对象存储系统(Object Based
随着移动通信技术的不断发展,尤其是第三代移动通信技术的快速发展,智能手机逐步发展成为具有强大功能的新一代移动终端。建立简单高效的应用平台系统对于组织和管理智能手机软
心脏病长期以来都是人类健康的头号杀手。心电图(ECG)提供了心脏功能活动的重要信息,能够帮助诊断一些常见的心脏疾病。传统的ECG自动识别算法通过检测QRS波群、P波、T波等波
近年来,随着社交网络、电子商务网站的兴起,人们的消费习惯正在慢慢地发生变化,越来越多的人开始通过互联网获取推荐的服务信息并线下消费体验服务,为了满足用户日益增长个性化消
学位