论文部分内容阅读
数据挖掘被称为未来信息处理的骨干技术,它以一种全新的概念改变着人类利用数据的方式。数据挖掘是指从大量的数据中提取有用的信息和知识的过程。这里要求数据源应该是大量的、真实的、含有噪音的,所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。聚类分析是数据挖掘的一项基本任务,聚类就是将数据对象分组成为多个类或簇,划分的原则是在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。本文的课题以省信息产业厅项目“嵌入式网上智能教学平台”为背景,主要通过对数据挖掘技术的相关分析与比较,提出改进的聚类分析算法,并将此算法与教育统计学相结合,从海量成绩数据中提取出隐藏于其中的有用信息。开发了嵌入式网上智能教学平台的成绩分析系统,实现学生成绩分析和试卷质量评价报告的自动生成。本文针对传统的基于遗传算法的K-means算法由于在遗传过程中易早熟,在算法后期整个种群停滞不前而得不到全局最优解的问题。提出一种改进的基于遗传算法的聚类分析算法。该算法用一种改进的基于模拟退火的自适应方法对适应度进行拉伸,然后动态调整交叉概率与变异概率并用跨世代精英选择策略进行选择,同时结合经典的K-means算法,使该算法可得到聚类划分效果极佳的聚类中心。本文使用Java语言进行了K-means算法和传统的基于遗传算法的K-means算法与本文算法的对比实验,实验结果表明,本文算法有效地避免了K-means算法受初始聚类中心选择的影响而容易陷入局部最优的可能,并消除了对孤立点数据的敏感性,同时也克服了传统的基于遗传算法的K-means算法因过早收敛而陷入局部最优的缺点。理论分析与实验表明,该算法的聚类划分效果明显优于K-means算法和其它传统的基于遗传算法的K-means算法。将改进的基于遗传算法的K-means算法应用到试卷质量的成绩分析中,并结合到网上教学当中去,从而发现嵌入式系统网上智能教学平台中试题的不足之处,并进一步改善试卷的质量,取得令人满意的智能化教学效果。