论文部分内容阅读
随着计算机应用的普及,尤其是30年来数据库技术的广泛使用,以及近10年来互联网应用的不断深入,数据的累积正以爆炸性的速率发生。人们已经评估出世界上信息的数量每两三年翻一番,并且数据库的数量与大小正在以更快的速度增长。这些数据的存在给人们带来方便的同时,也带来了许多新的问题。如数据的消化问题、数据的辨别问题、数据的安全问题、数据的形式问题等等。 面对海量数据,人们往往无所适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“淹没在数据的海洋中,但缺少知识”的现象。本文希望运用数据挖掘技术从这些数据当中挖掘出知识来。大量数据的背后隐藏了很多具有决策意义的信息,研究人员通过对海量数据的分析,发现数据之间的潜在联系,为人们提供自动决策支持。 数据挖掘则是解决这个问题的最新答案。数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。它利用各种分析工具在海量数据中发现模型和数据间的关系的过程,使用这些模型和关系可以进行预测,帮助决策者寻找数据间潜在的关联,发现被忽略的因素。 教育领域为数据挖掘提供了许多有趣的具有挑战性的应用。首先,教育机构经常拥有各种各样的信息资源,它包含传统数据库(如学生信息,教师信息,课程信息等),在线信息(如在线帮助等),及最近的多媒体数据库。其次,在教育机构中有许多能够引起挖掘兴趣的各式各样的兴趣群。利用数据挖掘技术可以快速而又准确的从浩瀚的信息资源中提取出隐藏在这些数据背后的一些有用的知识,从而用这些知识来指导管理者改进管理手段,有针对性地加强管理。 本文在广泛深入地查阅国内外文献的基础上,对关联规则挖掘算法的基础理论和基本方法进行了深入的理论研究和实验分析。主要研究了关联规则挖掘算法的改进及应用,并进行了实验验证。主要内容集中在以下几个方面: 一、关联规则、频繁项集算法的分析与研究。将关联规则挖掘的思想引入到对学生成绩数据库的挖掘之中。 二、数据集的准备与生成。数据集是数据挖掘的前提和基础。