论文部分内容阅读
摘 要:运用数据挖掘技术科学分析计算机公共课学生成绩,找出学生知识结构特点,有针对性调整教学方法,能够有效提高教学效果。提出Apriori算法及其改进算法,更好掌握试卷的难易度,指导教师的“教”与学生的“学”。
关键词:数据挖掘 Lapriori算法 教学评价
中图分类号:G642 文献标识码:A 文章编号:1007-3973(2013)008-187-02
1 引言
计算机公共课包含计算机文化基础和计算机技术基础两门,是各所本科院校针对大一新生开设的公共必修课之一。涉及到了全校各个班级,同时这两门课程正由以往的湖南省计算机等级考试向国家计算机等级考试转换的关键时期。对学生以往的成绩我们仅仅从分数来对学生的学习情况进一个初步的衡量,而我们现在迫切需要的是对给出的成绩做出系统分析,找出簿弱环节,有针对的对学生的某些操作或者某些章节进行讲解和补充,以实现更好的和教学成果和达到更高的教学目标。本文以我校2012级的计算机文化基础期末成绩为背景,给学生建立一个成绩数据库,数据挖掘技术在本次实验中主要是对所建立的数据库进行深入的分析,目的是得出有建设性的结论,这样才能够更好的指导教学。
2 数据挖掘、Apriori及其改进算法
2.1 数据挖掘技术简介
数据挖掘这一名词在1989年国际上就已经提出来了,它是针对数据进行深层次的分析。数据挖掘实际上就是一个通过数据库里面的大量数据,探索和发现潜在的有用信息的过程。由于信息量大,模糊随机的数据在其它很多算法中显得力不从心,而数据挖掘技术就能很好的解决这个问题。当然,现在数据挖掘技术的关注度越来越高,我们的研究方向也逐渐偏向于实用性。也能够运用于除计算机外的其它领域。从而实现了各门学科之间的相互关联。
2.2 Apriori算法
Apriori算法是一种数据的遍历,而且是逐层遍历。总先是以总的数据库中的数据为依据,首先找出频繁项集1中遍历一次找出集合J1,然后通过频繁项集J1遍历找出频繁第2项集合J2,通过频繁项集J2遍历找出频繁第3项集合J3,相当于一个递归的过程,最后找不到K项集而终止。这与计算机中C程序的递归算法也非相似。Apriori算法从Lk-1生成Lk时依据了一个重要性质——Apriori性质,即频繁项集的所有非空子集也必须是频繁的。当然,首先我们也有一个前提,我们认为频繁项集的任何子集也一定是频繁的。
2.3 Lapriori 算法
Apriori算法也存在着很多缺点:(1)在我们对数据进行遍历和扫描中,要多次的对数据进行扫描,生成了很多候选项集,但是在第二次,第三次,以及后面的扫描中都没有排除一些无用的候选项集,这样大大的增加了我们的扫描和运算时间。(2)虽然我们假定频繁项集的任何子集也一定是频繁的,但是实际上还是存在很多非频繁项集,采用何种方法过滤掉这一部分因素也是问题。(3)有一些重复选项集如何过滤。针对以上提出来的缺点,进行改进。改进后的apriori算法的思法就是去除冗余选项集,减少每次扫描中的时间,将数据库的信息尽快转化为可用信息,这样就能达到减少了I/O开销,提高系统的性能的目的。
3 Lapriori 算法实现
我们从计算机技术基础的期末考试成绩中随机抽取了的1000位学生成绩作为原始数据库,抽取10位的原因是数据过少不便于分析数据。在期末考试题弄中有选择题、操作题,程序题三种题型,其中选择题占40分,操作题占10分,程序题占50分。为了更清楚的了解学生掌握情况,最好是把知识点分到各个个章节,计算机技术基础一共是六章,每个章节的总分数分别是30分、15分、5分、15分、15分、20分。我们需要做的事情是对以下数据进行扫描,找到选项集,同时去除掉多余的无用选项集和非选项集。
表1是针对APriori算法和LAPriori的扫描效率进行了仿真实验,通过比较后的实验结果如表1所示,其对应的性能曲线如图1所示。
从图1中比较发现,横坐标表示交易数据量,纵坐标表示执行的时间,曲线显示随着交易数目从低到高的增长算法执行时间的变化情况。所以我们可以得出,在同样的条件下,Lapriori算法有明显的改进,时间缩短的较多,尤其是数据库中事务较多的情况。
通过表1的数据对比,可以直观的发现改进后的APriori算法的交易条数远小于传统的APriori算法,也就是说无论从扫描速度来讲,还是从冗余数据的过滤方面,改进的APriori算法远远优于传统的APriori算法,为以后的高校数据库扫描和查找提供了一个可行的途径。
从图1中的比较我们也不难发现改进的APriori算法特别适用于海量的数库,而且不会因为数据多处理的时间就增加很多。相反,在处理的数据量并不是特别大的时候,我们则不一定需要使用改进的APriori算法,因为这样并不能体现出它的优势。所以,在处理数据时,应该有针对的进行分析,更好地发挥频繁项集的优势,让它在实践中发挥出最大地作用。
参考文献:
[1] 邵峰晶.数据挖掘原理与算法[M].北京:科学出版社,2009.
关键词:数据挖掘 Lapriori算法 教学评价
中图分类号:G642 文献标识码:A 文章编号:1007-3973(2013)008-187-02
1 引言
计算机公共课包含计算机文化基础和计算机技术基础两门,是各所本科院校针对大一新生开设的公共必修课之一。涉及到了全校各个班级,同时这两门课程正由以往的湖南省计算机等级考试向国家计算机等级考试转换的关键时期。对学生以往的成绩我们仅仅从分数来对学生的学习情况进一个初步的衡量,而我们现在迫切需要的是对给出的成绩做出系统分析,找出簿弱环节,有针对的对学生的某些操作或者某些章节进行讲解和补充,以实现更好的和教学成果和达到更高的教学目标。本文以我校2012级的计算机文化基础期末成绩为背景,给学生建立一个成绩数据库,数据挖掘技术在本次实验中主要是对所建立的数据库进行深入的分析,目的是得出有建设性的结论,这样才能够更好的指导教学。
2 数据挖掘、Apriori及其改进算法
2.1 数据挖掘技术简介
数据挖掘这一名词在1989年国际上就已经提出来了,它是针对数据进行深层次的分析。数据挖掘实际上就是一个通过数据库里面的大量数据,探索和发现潜在的有用信息的过程。由于信息量大,模糊随机的数据在其它很多算法中显得力不从心,而数据挖掘技术就能很好的解决这个问题。当然,现在数据挖掘技术的关注度越来越高,我们的研究方向也逐渐偏向于实用性。也能够运用于除计算机外的其它领域。从而实现了各门学科之间的相互关联。
2.2 Apriori算法
Apriori算法是一种数据的遍历,而且是逐层遍历。总先是以总的数据库中的数据为依据,首先找出频繁项集1中遍历一次找出集合J1,然后通过频繁项集J1遍历找出频繁第2项集合J2,通过频繁项集J2遍历找出频繁第3项集合J3,相当于一个递归的过程,最后找不到K项集而终止。这与计算机中C程序的递归算法也非相似。Apriori算法从Lk-1生成Lk时依据了一个重要性质——Apriori性质,即频繁项集的所有非空子集也必须是频繁的。当然,首先我们也有一个前提,我们认为频繁项集的任何子集也一定是频繁的。
2.3 Lapriori 算法
Apriori算法也存在着很多缺点:(1)在我们对数据进行遍历和扫描中,要多次的对数据进行扫描,生成了很多候选项集,但是在第二次,第三次,以及后面的扫描中都没有排除一些无用的候选项集,这样大大的增加了我们的扫描和运算时间。(2)虽然我们假定频繁项集的任何子集也一定是频繁的,但是实际上还是存在很多非频繁项集,采用何种方法过滤掉这一部分因素也是问题。(3)有一些重复选项集如何过滤。针对以上提出来的缺点,进行改进。改进后的apriori算法的思法就是去除冗余选项集,减少每次扫描中的时间,将数据库的信息尽快转化为可用信息,这样就能达到减少了I/O开销,提高系统的性能的目的。
3 Lapriori 算法实现
我们从计算机技术基础的期末考试成绩中随机抽取了的1000位学生成绩作为原始数据库,抽取10位的原因是数据过少不便于分析数据。在期末考试题弄中有选择题、操作题,程序题三种题型,其中选择题占40分,操作题占10分,程序题占50分。为了更清楚的了解学生掌握情况,最好是把知识点分到各个个章节,计算机技术基础一共是六章,每个章节的总分数分别是30分、15分、5分、15分、15分、20分。我们需要做的事情是对以下数据进行扫描,找到选项集,同时去除掉多余的无用选项集和非选项集。
表1是针对APriori算法和LAPriori的扫描效率进行了仿真实验,通过比较后的实验结果如表1所示,其对应的性能曲线如图1所示。
从图1中比较发现,横坐标表示交易数据量,纵坐标表示执行的时间,曲线显示随着交易数目从低到高的增长算法执行时间的变化情况。所以我们可以得出,在同样的条件下,Lapriori算法有明显的改进,时间缩短的较多,尤其是数据库中事务较多的情况。
通过表1的数据对比,可以直观的发现改进后的APriori算法的交易条数远小于传统的APriori算法,也就是说无论从扫描速度来讲,还是从冗余数据的过滤方面,改进的APriori算法远远优于传统的APriori算法,为以后的高校数据库扫描和查找提供了一个可行的途径。
从图1中的比较我们也不难发现改进的APriori算法特别适用于海量的数库,而且不会因为数据多处理的时间就增加很多。相反,在处理的数据量并不是特别大的时候,我们则不一定需要使用改进的APriori算法,因为这样并不能体现出它的优势。所以,在处理数据时,应该有针对的进行分析,更好地发挥频繁项集的优势,让它在实践中发挥出最大地作用。
参考文献:
[1] 邵峰晶.数据挖掘原理与算法[M].北京:科学出版社,2009.