论文部分内容阅读
随着计算机技术和数据库技术的快速发展,人们采集数据的能力有了很大的提高,并积累了大量的数据。通常仅仅对这些数据做简单的查询、编辑工作,然而这些数据中隐含了大量对人们有价值的知识、模式以及规律等。人们为了获取这些潜在的信息以指导生产、生活,应运产生了数据挖掘技术。数据挖掘又称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识。从数据挖掘概念的提出到现在,数据挖掘技术已得到了广泛研究,并且已经在商业、金融、医疗等领域得到了成功地应用。近年来,随着高校研究生教育制度的改革与发展,以及大学生就业难的问题日益突出,导致了全国各高校研究生招生规模的不断扩大,招生方式也趋于多元化、自主化,而且各高校之间的竞争也日益激烈。为了扩大学校的规模,高校纷纷降低录取门槛,导致出现社会对研究生教育质量的不信任态度。因此,如何提高高校研究生质量已经成为招生单位急于解决的问题。研究生招生是研究生教育整个周期的最初阶段,其招生质量为提高后续研究生培养阶段质量奠定了基础。因此,可以借助于数据仓库和数据挖掘技术,通过其中的关联分析和决策树分类算法,找出研究生招生质量中有价值的信息,为高校的决策者提供有力的支持。本文在分析数据挖掘的研究现状、数据仓库技术、关联规则算法以及决策树算法的基础上,主要进行了以下几方面的研究工作:1)研究学习了数据仓库和数据挖掘的理论知识,主要包括数据仓库中数据的组织、数据仓库的构建、数据挖掘概念、数据挖掘技术的主要内容、处理过程、应用领域以及数据挖掘技术的各种算法,并选取适合于本课题的数据挖掘算法。2)结合主题“D大学考生来源分析”详细地介绍了数据仓库的构建、基础数据的准备,包括数据抽取、数据清洗、数据转换,以及多维数据集的建立。3)介绍了数据挖掘技术在考生对初试科目的选择、某大学的调剂生以及推免生分类中的应用。通过分析考生对初试科目的选择,以期发现每门科目的设置是否具有合理性以及预测考生的选择结果;通过对某大学的调剂生和推免生的分类,可以得出哪些地区或者高校的考生是重点招生对象,用于辅助招生宣传方案的制定。4)介绍了关联规则算法在影响考生录取因素中的分析,分析结果可以辅助高校选拔优秀的考生。本文根据决策树算法和关联规则算法的理论,最后得出理想的、有价值的规则及结论,从而实现了数据挖掘技术在某大学研究生招生质量分析中的应用。