关联规则挖掘理论及其应用研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:baino1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:关联规则是数据挖掘的重要概念,其应用研究是目前数据挖掘研究的热点之一。本文针对目前学校教学评价中因缺乏有效、科学的方法而造成的不合理问题,为了解决这些问题,在查阅大量资料,并通过教学评价数据的有效挖掘,运用关联规则挖掘理论技术,构建教学评价新模式,从而使教学评价公平、公正、合理和高效,并通过实例阐述其在教学评价中应用的重要性。
  关键词:数据挖掘;关联规则;教学评价
  中图分类号:TP??? 文献标识码:A文章编号:1009-3044(2007)17-31374-02
  The Mining Theories of Association Rules and its Application Research
  QIN Bao-ling
  (Information & Educational Technology Center of Foshan University,Foshan 528000,China)
  Abstract:Association rules is the important concept that the data mining, its application research is the hot that the data mining research currently to order it a. This text aims at Currently, effective and scientific methods lack in the field of the school teaching evaluation, which results in unreasonable problem, for resolving these problems, be checking a great deal of data, and pass the valid excavation of the teaching evaluation data, usage the mining theories technique of association rules, set up the teaching evaluation new mode, aimed at making it fair, just, reasonable and efficient, and elaborate it through a solid example applied importance in the teaching evaluation.
  Key words: Data Mining; Association Rules; Teaching Evaluation
  
  1 前言
  
  随着网络技术和数据库技术的飞速发展,各行各业的传统模式也随之改变,尤其对学校教学评价来说,也不例外。大家知道教学质量决定着学校发展的生命线,而影响学校教学质量的因素有很多,其中最重要的是教师,要拥有高素质的教师队伍,必须要有一个完整的教学评价体系。因此,对教师教学评价就显得特别的重要。因为科学的评价方法可以极大地调动教师的积极性,提高教学质量。从目前大多学校的教学评价方法来看,问题主要是评价单一,评价存在许多的弊端。
  随着时间的推移,存在于教学评价系统中的数据越来越多,如何从这大量的评价数据中挖掘出潜在的、有用的数据显得非常重要。这里以高等教育为背景和计算机网络为操作平台,立足汲取别人经验,应用关联规则挖掘理论来探索现代教学评价,为教育管理者和决策者提供隐含在现代教学评价数据库中的理想模式,对促进教育信息化管理和提高学校教学质量等问题都具有一定的理论意义和应用价值。
  
  2 关联规则挖掘理论
  
  关联规则挖掘[1]是数据挖掘中最活跃的研究方法之一。最早是1993年由Agrawal等人提出的,主要是针对购物篮分析析问题提出的,目的是为了发现交易数据库中不同商品之间的关联规则。
  2.1 基本挖掘理论[2][3]
  设I={i1,i2,…,im}是一个项目集,事务数据库是D,事务T是I中一组项目的集,即T?哿I。对于项目集X?哿I,若X?哿T,则事务T支持X。若X中有k个项目,则称X为k-项目集。
  定义1:设项目集X的支持数Count(X)=事务数据库D中支持项目集X的事务数,|D|=事务数据库D中总的事务数,则项目集X的支持度Sup(X)=。
  定义2:设Count(X→Y)=关联规则X→Y的支持数,即事务数据库D中支持项目集的事务数,则关联规则X→Y的支持度Sup(X→Y)= 。
  定义3:关联规则X→Y的置信度Conf(X→Y)=。
  2.2 关联规则的挖掘问题和步骤
  (1)挖掘问题
  关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度Smin和最小置信度Cmin的关联规则。
  强关联规则是指满足最小支持度阈值(Min Support)和最小置信度阈值(Min Confidence)的关联规则,即具有高置信度和强支持度的规则。这两个阈值均在0%到100%之间。
  (2)挖掘步骤
  关联规则挖掘主要包含以下二个步骤:
  ①发现所有的频繁项集,根据定义,这些项集的支持度至少应等于预先设置的最小支持度阈值;
  ②根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。
  2.3 关联规则挖掘算法
  Apriori算法[4](包括AprioriTid和AprioriHybrid算法)是关联规则挖掘算法中最为著名、最具影响、最为常用的算法,它是一种逐层搜索的迭代算法,同时又是一种宽度优先的算法。挖掘算法DA(Dynamic Apriori)一种更为快速、高效的,从实验的结果来看,DA 算法较Apriori有明显的提高。本文选用关联规则的AprioriTid算法来对实例进行应用分析。
  AprioriTid算法表示如下:
  输入:事务数据库D;Minsupport;Minconfdence。
  输出:事务数据库D的所有的频繁项目集L和它们的关联规则AR。
  方法:C1={csndidate 1-itemsets};
   L1:={c∈C1|Sup(c)≥minsup};
  T1:=事务数据库D;
  For (k=2;Lk-1≠Φ;k++) do begin
  Ck=Apriori-Gen(Lk-1);
  Tk=Φ;
  根据Tk-1和Ck生成Tk,由Tk计算CK生成Tk;
  Lk={c∈Ck|Sup(c) ≥minsup };//生成频繁k-项目集Lk。
  End;
   L=UkLk;//L为D中所有频繁项目集的集合。
  关联规则的生成与算法Apriori相同。
  AprioriTid算法使用了Apriori-Gen函数以便在遍历之前确定候选频繁项目集。这个算法的新特点是在第一次扫描之后就不再使用事务数据库D来计算支持数,而是用另外一个集合Tk来完成,集合Tk中每个成员的形式为(TID,{Xk}),其中每个Xk都是一个潜在的频繁k-项目集。当k=1,Tk对应于事务数据库D。对于k>1,有算法产生Tk,与事务t对应的Tk成员是(t.TID,{T∈Ck|t中包含的T})。若某个事务不包含任何候选频繁k-项目集,则对这个事务Tk就没有条目。这样Tk中条目数量将比事务数据库D中的事务数少,尤其是对于大值的k而言。
  
  3 关联规则挖掘理论在教学评价中的应用
  
  评价教师教学质量问题,往往从多方面因素考虑,其中最重要的是从学生对教师教学方面的评价。在教学评价中利用关联规则挖掘分析影响教学质量的因素,对提高教师教学质量有很大的促进作用。
  3.1 关联规则评价指标的设定
  为了表述简单,这里只取10位教师的样本,每位教师有6个评价指标,如表1所示。
  表1 评价指标表
  3.2 数据预处理
  为了更好的进行关联规则挖掘,对评价结果进行量化数据预处理,表中采用两个属性值,1表示达到该项标准,0表示未达到该项标准,如下列表2所示:
  表2 评价结果初值表
  3.3 关联规则挖掘过程
  根据关联规则的概念和表3-2量化结果,可得出达到标准的指标项目集,即事务数据库D。TID={教师编号},项目集={达到标准的指标}。本文假定本次关联规则挖掘的最小支持度=60%,最小置信度过=90%,由AprioriTid算法计算,具体过程如图1所示。
  根据挖掘结果,我们得出的强关联规则为:{A1,A2}→A6(支持度是60% ,置信度是100%),此规则可解释为某教师符合指标A1=(教学态度好,责任心强,尊重学生,对自已的工作专心而负责)和指标A2=(因材施教,注重启发学生,信息量大)时,他必定符合指标A6=(与其他教师相比,你对此教师教学的总体评价)。
  3.4 关联规则挖掘结果的指导意义
  根据这条规则,如果收集到的评价数据在指标A1、指标A2和指标A6上不存在关联性,则可认为该份评价数据为无效数据,从而尽可能地提高评价的准确性、公正性和客观性。同样的,从教师的角度出发,任课教师的教学态度好、责任心强、尊重学生、对自己的工作专心而负责和因材施教、注重启发学生、信息量大是影响学生对教师评价的重要因素,所以学校应加强教师这方面的教育,使教师认识到这些因素的重要性,同时,多提供教师外出学习机会,使他们不断学习,不断提高自己的专业水平,这对一所学校来说是非常有指导意义的。
  关联规则除了在检验评价数据可靠性方面发挥作用之外,它还可以帮助我们进行预测。例如经过数据处理,找出了A测试与B测试之间存在某种联系,就可以根据A测试的成绩来推测B测试的成绩。另外,还有通过关联规则挖掘找出数据变量之间的关系,例如,学生的学习质量与学习方法、教师的教法、学生原有的基础、学习时间以及与智力、性别等之间的关系,各种能力之间的相关,各门课程学习之间的关系等等。还有,为教学部门提供决策支持信息,促使更好地开展教学工作,提高教学质量,具有非常重要的作用。学校每学年都要搞教学评价调查,积累了大量的数据,如果仅仅把这些数据作为评优、晋升职称等的依据,显然是一种浪费,应该充分运用数据挖掘技术,挖掘出一些有用的知识来更进一步地为教学服务。需要注意的是,运用数据挖掘技术解决问题时,样本容量越大,获得的挖掘结果越可靠。
  图1AprioriTid算法数据关联规则发现过程图
  
  4 小结
  
  关联规则挖掘理论是目前数据挖掘中最重要的理论之一,它的应用很广泛,包括金融、贸易、电信、体育等,而把它应用于教学评价的研究目前不算多,可以说是刚开始,随着关联规则挖掘理论的研究和应用的不断深入,教学评价的公平、公正、合理、高效离不开关联规则挖掘理论的支持。从目前查阅大量资料来看,关联规则挖掘理论应用于教学评价的研究,已引起教育管理部门专家的广泛关注,目前虽然没有成功的应用系统,但理论的研究已趋成熟,并不断得到完善。
  
  参考文献:
  [1]Jiawei Han Micheline Kamber 著,范明,孟小峰,等译.数据挖掘——概念与技术[M].北京:机械工业出版社,2001.3-8.
  [2]苏新宁,杨建林,江念南,粟湘,等著.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.149-159.
  [3]朱玉全,杨鹤标,孙蕾等编著.数据挖掘技术[M].南京:东南大学出版社,2006.27-77.
  [4]毛国君,段立娟,王实,石云,等编著.数据挖掘原理与算法[M].北京:清华大学出版社,2005.64-73.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
初中学生的思维方式正处于由形象思维向抽象思维发展的过渡阶段,而物理实验分析对学生的抽象思维要求较高,因此部分学生掌握起来比较困难。将生动、形象的视频和图像引入教学,是培养学生物理学科核心素养的有效途径。  一、实验示意图存在的不足  物理图像表征是将抽象思维转向形象思维的桥梁,有助于学生深入认识物理本质[1]。但相关研究主要集中在对图像表征的解读(图形的含义、坐标图像)等抽象问题的数形结合应用方面
摘要:多媒体教学资源是信息技术条件下师生教学过程的基础,本文在深刻分析了目前多媒体教学资源中存在的影响教学过程和教学效果的六个问题的基础上,提出了解决此问题的六个措施,对目前多媒体教学资源建设将会起到一定的保障作用。  关键词:多媒体教学资源;问题;对策  中图分类号:G642  文献标识码:A  文章编号:1009-3044(2007)01-10229-03
论文首先对基于J2EE体系结构的Struts和Spring框架进行了介绍,并对Struts+Spring(SS),Spring+ibatis(Si)组合方式的特点进行了说明;然后对基于Sttuts,Spring+ibatis轻量级Web框架的天润
自1998年10月上海市实行进沪生猪“准运证”制度以来,浙江省在认真调查摸底的基础上,规范管理,严格审查,层层把关,充分发挥生猪品质和区位优势,以良好的信誉和完善的服务,使供沪生猪
语文课堂是活的,没有一个固定的教学模式可以颠扑不破、亘古延续。语文教师在设计和实施教学时处理教材的能力和水平,决定了课堂是美妙的还是枯燥的。好的教材处理,能带领学
介绍了一种支持语义的图像检索系统—PIcsearch(PICTURE Search),该系统获取图像低层特征(颜色)时采用基于区域的主颜色提取算法.综合考虑了图像的像素统计特征和空间位置信息同时
VRML作为虚拟现实技术的一个里程碑式的立体建模语言,在Internet上得到了日益广泛的应用。伴随着Java语言的引入.使得VRML的虚拟场景所能实现的功能更加强大:本文通过实例来论述
该文相对于传统的监控系统,列举了无线网络监控系统的优点,另外还提出了无线网络监控系统的构架和设计原则。
宜都市审计局在谋划2017年审计工作中,把提升审计项目质量,打造审计项目精品作为审计管理重点工作,结合宜都实际,出台了《审计项目操作规程》,采取“四项举措”,
于1991-1997年,对广东省桉树的主要害虫进行了研究。针对桉树害虫的为害时间集中在每年的4-6月份和主要为害当年营造的幼林这一特点,对食叶害虫采取以林业措施为主;对地下害虫采取林业措施和