论文部分内容阅读
摘要:关联规则是数据挖掘的一个研究方向,它可以通过对大量数据中数据项相关性的分析,挖掘各数据项之间的内在联系。高校各个专业课程既相互独立,又存在一定的先后顺序,课程的学习彼此之间也会有一定的影响。一门课程的学习情况可能会影响其他相关课程的学习。运用关联规则技术对学生专业课程成绩进行分析,揭示各专业课程之间的内在联系,为学生专业课程的选择和学习提供指导意见,为人才培养方案的制定及课程的合理设置提供有价值的参考依据。
关键词:数据挖掘;关联规则;课程相关性;分析
中图分类号:TP301.6 文献标识码:A
文章编号:1009-3044(2019)35-0253-03
近年来随着高等教育的不断发展与普及,为确保教学质量,很多高等院校完善和加强教学管理,在具体的教学管理过程中,聚集了海量的原始教学信息,但是目前对这些原始教学信息的使用,仅仅停留在简单的查询和统计阶段,没有更深层次地挖掘其内在的更有价值的信息。这些原始的教学信息往往蕴藏着一定的教学规律和模式,而有一些教学规律和模式往往是隐含在这些原始教学信息的背后,因此为了充分发挥这些原始教学信息的作用,需要运用数据挖掘技术的分析方法,对它们进行更加深入的分析和研究。
数据挖掘是从数据库的大量数据中挖掘出有用的信息,即从大量的实际应用数据中,发现人们之前未知的、有规律的信息和知识的非平凡过程[1][2]。关联规则是据挖掘中运用极其广泛的研究方法之一,主要是探究各个数据项之间联系规则。高校各个专业课程不仅存在一定先后顺序,而且设置不同的专业方向,这给学生在选择和学习专业课程上带来一定的困扰。关联规则技术可以通过对学生专业课程成绩进行分析,发现隐藏在学生专业课程成绩背后的各专业课程之间的内在联系,为学生专业课程的选择和学习提供指导意见,为人才培养方案的制定及课程的合理设置提供有价值的参考依据。
1 关联规则
关联规则最初用于购物篮的分析,缓过对交易数据库中不同商品的分析,发现数据库中不同商品之间的联系规则,这些规则有可能是人们之前未知的或者被隐含的[3]。
1.1关联规则的定义
设I= {I1,I2,…,Im)是一个项目集,事务数据库D={t1,t2,…,tn},其中事务数据库每个事务ti(i=l,2…,n)都是I上的一个子集[5]。
1)支持度:设I1∈I项目集I1在事务数据库D上的支持度support(I1)=‖{t∈D|I1∈t}‖/‖D‖;
2)频繁项目集:若support(I1)不小于用户指定的最小支持度minsup,I1即是频繁项目集,如果I1不被其他的项目集所包含,I1就是最大频繁项目集;
3)关联规则:设I1、I2是最大频繁项目集中的互不相交两个子集,则I1→I2称为关联规则;
4)置信度:I1→I2的置信度就是包含I1、I2的事务数与包含I1的事务数的比值,conf(I1→I2)=support(I1∪I2)/support(I1)
1.2关联规则的基本思路[5]
关联规则的经典算法是Apriori算法,它是根据事先指定的最小支持度,运用逐层扫描的方法,发现最大频繁项集。Aprio-ri算法可以分为两个子问题[6]:
1)发现最大频繁项目集:根据事先指定的最小支持度min-sup,运用逐层扫描的方法,依次产生不小于最小支持度的各个频繁项目集,最终遴选出最大频繁项集。
2)生成关联规则:根据事先指定的最小置信度minconf,在每个最大频繁项目集中,遴选出满足最小置信度的关联规则。
1.3频繁项目集的产生过程[7]
1)频繁项目集L1:根据事先指定的最小支持度minsup,第一次扫描事务数据库,遴选出不小于最小支持度的1频繁项目集L1;
2)频繁项目集L2:自连接L1中所有项目,形成2-候选项C2,第二次扫描事务数据库,遴选出不小于最小支持度的2频繁项目集L2;
3)重复上述过程,直到没有新的候选项集出现时,算法终止,最终遴选出最大频繁项集。
1.4 Apriori核心算法[4]
Ll={large 1-itemsets}
for(k=2;Lk一1≠Φ;k )do begin
Ck=apriori-gen(Lk-1)//新的候选集
for all transactions∈D do begin
Ct=subset(Ck,t)//事务t中包含的候选集
for all candidateS∈Ct do c.count
end
Lk={c∈Ck|c.count
关键词:数据挖掘;关联规则;课程相关性;分析
中图分类号:TP301.6 文献标识码:A
文章编号:1009-3044(2019)35-0253-03
近年来随着高等教育的不断发展与普及,为确保教学质量,很多高等院校完善和加强教学管理,在具体的教学管理过程中,聚集了海量的原始教学信息,但是目前对这些原始教学信息的使用,仅仅停留在简单的查询和统计阶段,没有更深层次地挖掘其内在的更有价值的信息。这些原始的教学信息往往蕴藏着一定的教学规律和模式,而有一些教学规律和模式往往是隐含在这些原始教学信息的背后,因此为了充分发挥这些原始教学信息的作用,需要运用数据挖掘技术的分析方法,对它们进行更加深入的分析和研究。
数据挖掘是从数据库的大量数据中挖掘出有用的信息,即从大量的实际应用数据中,发现人们之前未知的、有规律的信息和知识的非平凡过程[1][2]。关联规则是据挖掘中运用极其广泛的研究方法之一,主要是探究各个数据项之间联系规则。高校各个专业课程不仅存在一定先后顺序,而且设置不同的专业方向,这给学生在选择和学习专业课程上带来一定的困扰。关联规则技术可以通过对学生专业课程成绩进行分析,发现隐藏在学生专业课程成绩背后的各专业课程之间的内在联系,为学生专业课程的选择和学习提供指导意见,为人才培养方案的制定及课程的合理设置提供有价值的参考依据。
1 关联规则
关联规则最初用于购物篮的分析,缓过对交易数据库中不同商品的分析,发现数据库中不同商品之间的联系规则,这些规则有可能是人们之前未知的或者被隐含的[3]。
1.1关联规则的定义
设I= {I1,I2,…,Im)是一个项目集,事务数据库D={t1,t2,…,tn},其中事务数据库每个事务ti(i=l,2…,n)都是I上的一个子集[5]。
1)支持度:设I1∈I项目集I1在事务数据库D上的支持度support(I1)=‖{t∈D|I1∈t}‖/‖D‖;
2)频繁项目集:若support(I1)不小于用户指定的最小支持度minsup,I1即是频繁项目集,如果I1不被其他的项目集所包含,I1就是最大频繁项目集;
3)关联规则:设I1、I2是最大频繁项目集中的互不相交两个子集,则I1→I2称为关联规则;
4)置信度:I1→I2的置信度就是包含I1、I2的事务数与包含I1的事务数的比值,conf(I1→I2)=support(I1∪I2)/support(I1)
1.2关联规则的基本思路[5]
关联规则的经典算法是Apriori算法,它是根据事先指定的最小支持度,运用逐层扫描的方法,发现最大频繁项集。Aprio-ri算法可以分为两个子问题[6]:
1)发现最大频繁项目集:根据事先指定的最小支持度min-sup,运用逐层扫描的方法,依次产生不小于最小支持度的各个频繁项目集,最终遴选出最大频繁项集。
2)生成关联规则:根据事先指定的最小置信度minconf,在每个最大频繁项目集中,遴选出满足最小置信度的关联规则。
1.3频繁项目集的产生过程[7]
1)频繁项目集L1:根据事先指定的最小支持度minsup,第一次扫描事务数据库,遴选出不小于最小支持度的1频繁项目集L1;
2)频繁项目集L2:自连接L1中所有项目,形成2-候选项C2,第二次扫描事务数据库,遴选出不小于最小支持度的2频繁项目集L2;
3)重复上述过程,直到没有新的候选项集出现时,算法终止,最终遴选出最大频繁项集。
1.4 Apriori核心算法[4]
Ll={large 1-itemsets}
for(k=2;Lk一1≠Φ;k )do begin
Ck=apriori-gen(Lk-1)//新的候选集
for all transactions∈D do begin
Ct=subset(Ck,t)//事务t中包含的候选集
for all candidateS∈Ct do c.count
end
Lk={c∈Ck|c.count