论文部分内容阅读
随着高校信息化建设的快速发展,各类高校管理系统中所存储的数据量也成几何级增长,高校大数据正在形成。面对高校大数据,高校迫切期望能对其进行分析挖掘,发现其中蕴藏的教学规律、规则,进而改进教学过程,提升学校教学质量。本文研究内容就是在这样背景下提出的。论文主要针对高校大数据特点及客观需求,提出了一种改进的Apriori算法,提高了挖掘效率;提出了一种混合规则衡量标准,解决了传统规则衡量标准准确性低的缺陷;最后结合改进后算法和新的规则衡量标准,构建了高校学生成绩挖掘系统原型,并给出了大数据分析的结论。本文具体工作内容如下: (1)提出了一种基于并行矩阵的Apriori算法(An Apriori Algorithm Based on Parallel Matrix简称Apriori_PM)。该算法通过对挖掘数据进行矩阵化,将整个挖掘过程中数据库的扫描次数缩减到两次,同时为提高算法并行挖掘能力,将算法的挖掘过程进行并行化改进,使算法更适用于分布式系统,大大的提高了挖掘效率。为了进一步提高算法的效率,本文针对挖掘过程中所产生的候选项集数量进行研究,提出了分阶段挖掘方式。 (2)改进了支持度-置信度规则衡量标准。为提高算法挖掘结果的准确性,本文提出了一种混合规则衡量标准,新标准中加入了作用度、有效度等标准,有效的弥补了原衡量标准挖掘准确性低的缺陷,并通过实验进行对比证明。 (3)基于MapReduce构建了高校学生成绩挖掘系统原型。系统以高校大数据中学生成绩作为挖掘数据源,基于上述数据挖掘算法和规则衡量标准,实现了一个成绩预测系统,用于挖掘高校学生成绩背后隐藏的规则,并对数据挖掘结果进行分析。 应用实验结果表明,本文所提算法在挖掘性能上优于Apriori_MR算法;所提出的混合规则衡量标准在规则的筛选上,相对于传统衡量标准而言准确性更高;所建系统针对不同的高校角色提供不同的数据挖掘服务,有益于高校教学水平的提升。