论文部分内容阅读
数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别很大。
K-means算法是一种基于划分的聚类算法,它把N个对象划分成K个类,其中聚类数目K是输入参数。该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结果。论文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,并提出了一种有效的改进方法,通过试验证明了改进算法的有效性。同时对该算法中对于计算聚类簇中心对孤立点敏感性这一问题也提出了改进措施,理论和实验都证明了改进方法的有效性。
本论文的另一个重要目的是将数据挖掘中的聚类技术应用到对学生成绩的分析中,根据学生的学习成绩对学生进行聚类同时分析影响每一簇成员学习成绩的主要因素。在此应用中对数据的预处理采用统计学中的标准分技术,该技术解决了在利用原始分进行分析学生学习情况时的弊端,即只根据学生学习成绩的高低来衡量一个学生的学习好坏,而没有考虑到因试题的难易程度等原因而造成的成绩结果。