高职院校基于基础数据建设的数据挖掘研究

来源 :大陆桥视野·下 | 被引量 : 0次 | 上传用户:m104129495
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】今年,我院在新能源类专业教学资源库申报与建设中取得了非常大的成绩,近两年学生在资源库管理与学习平台的在线考试系统进行相关课程的考试以及职业能力鉴定已经得到参建联盟院校广泛认同和使用,积攒了大量的数据资源,为实施数据挖掘提供了基础。本文针对考试系统的大量数据进行数据挖掘,从而找到数据信息里的潜在规则以指导教学管理和教学决策。
  【关键词】数据挖掘;关联分析;在线考试
  一、数据挖掘及其技术
  (一)数据挖掘
  数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
  (二)数据挖掘系统
  一个完整的数据挖掘系统包括规则生成子系统和应用评估子系统两个部分。规则生成子系统主要完成根据数据仓库提供的历史数据,统计并产生相关规律,并输出相关结果;应用评估子系统可以理解为系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对数据进行分类预测,通过系统的任务计划对数据产生评估指标。
  (三)数据挖掘过程
  数据挖掘过程包括对问题的理解和提出、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,以上的过程不是一次完成的,其中某些步骤或者全过程可能要反复进行。
  (四)数据挖掘的主要功能
  概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。
  关联分析:是寻找数据库中值的相关性,揭示属性与属性值在数据集中一起出现的条件。这种关联规则可以是单维关联规则或多维关联规则。
  分类与预测:利用某种数据挖掘算法的某种规则自动对海量数据进行分类,把握分析对象发展的规律,对未来的趋势做出预见。
  聚类分析:聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组,从而产生属性相近的各个类。
  偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
  演变分析:可以根据数据的特征对数据的发展变化作出相应的预测与分析。主要应用于对时间序列数据的分析、序列或周期模式匹配和基于类似性的数据分析。
  二、在线考试系统结构与数据分析
  (一)系统结构分析
  资源库管理与学习平台中在线考试系统结构采用四层应用模式,第一层为应用层(管理与学习平台),这一层主要由两部分组成,考生通过浏览器进行在线考试,管理员通过工作平台直接管理试题库及系统环境,同时对考生考试数据及考生行为进行数据提取、分析、评价等;第二层为Web层(Web Server),Web服务器接受应用层的请求与业务逻辑层的接口进行信息交换,以响应用户信息并提供用户界面;第三层为业务逻辑层用来实现业务逻辑,包括一些具体的组件模块。如:题库管理组件模块、用户考试组件模块、评卷组件模块、成绩管理组件模块等;第四层为数据层,使用SQL Server 2008数据库系统来存储待处理的各种数据,包括各种记录用户行为的数据以及Web层与业务逻辑层之间进行通讯和信息传递时所产生的数据等。
  本文要在考试系统的应用层中添加具有数据挖掘功能的“成绩分析系统",用以补充成绩管理模块的功能,使之能够对考生答题记录进行数据挖掘分析。
  (二)系统数据分析
  考试系统中的数据量非常大,其间必然存在大量的噪声数据。究其产生原因,如在考试过程中某些考题因被考生漏答而造成数据的空缺;管理人员或教师在测试系统时会留下大量的测试记录……这些噪声数据的存在会对挖掘的结果产生很大的影响。数据记录中还包括一些冗余的数据域,这些数据域在考试系统的正常运行中是不可缺少的,但是在进行数据挖掘中却会影响挖掘的效率,并产生毫无意义的规则。另外还有很多不确定因素也会使数据库中产生大量的噪声数据。噪声数据的存在会直接影响挖掘结果的有效性,尽可能的去除这些噪声数据才能提高挖掘的效率并得到有效性更高的结果和规则。因此,在进行数据挖掘之前,有必要对数据源进行清洗和处理,最终得到干净的、有效的、符合挖掘要求的数据。
  三、数据挖掘算法应用
  (一)关联规则挖掘算法应用
  关联分析的目的是挖掘隐藏在数据间的相互关系。对于物品与事务的关系:事务1中出现了物品A,事务2中出现了物品B,事务3中出现了物品A和B。在数据库的发现知识中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说关联规则通过量化的数字描述物品A的出现对物品B的出现有多大的影响。
  本文主旨在于通过对考生的答题记录信息进行数据挖掘,最终找到知识点间的关联关系。在关联规则的挖掘中,需要的数据是考生的具体答题正误的记录、所答题目内容以及题目所归属的知识点。根据挖掘的需要,应从庞大复杂的源数据库中生成不同的数据子表作为关联挖掘的数据源。本文选取了一份“光伏单片机控制技术”课程考试试卷,并将所有使用这份试卷的考生的答题记录进行归纳整理,再利用数据挖掘中关联规则算法进行分析、研究,找寻知识点间的潜在规则。
  通过分析,最终得到了知识点之间潜在的关联关系,如:“单片机振荡频率”知识点与“计算定时器初值”知识点之间、“锁存器工作原理”知识点与“段选、位选控制”知识点之间,都存在着很强的关联关系。在教学中,强调这些知识点之间的关联关系,将有利于教学效果的提高。
  (二)决策树挖掘算法应用
  决策树是以实例为基础的归纳学习算法。它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性并且能够学习析取表达式。在这种方法中学习到的函数被表示为一棵决策树。一棵决策树的每个非叶节点均表示考察数据项目的测试或决策。根据测试结果,选择某个分枝,为了分类一个特定数据项目,我们从根节点开始,一直向下判定,直到达到一个终端节点(叶子节点)为止。这样,一个决策就形成了。
  本文在分类模块中以学生期末考试的通过状态为分类属性,以第二学年第一学期、第二学期期末成绩为测试属性进行分类,从而分析学生期末考试的通过状态,为学校制定教学策略提供决策支持,同时也帮助广大考生对照检查自身情况,调整学习状态提供理论指导。
  通过对考生的答题记录进行挖掘,最终找到了知识点之间存在关联关系,建立了本校学生首次参加课程考核通过情况的决策树,并得到了有效的预测考试通过情况的规则。最后,把挖掘的结果进行整理并导入到数据库中,使教学的决策者和教师可以随时察看,帮助教师提高教学质量,使我校的考试成绩可以得到提高。
  课题项目:
  本文为天津市高等职业技术教育研究会2013年度课题《高职院校基础数据建设与数据挖掘研究》(XIII418)。
其他文献
96年美国电信法修订,在全球电信历史上都是一个不得不承认的巨大进步,尽管今天它又面临着电信泡沫和过度竞争的挑战。
目的探讨应用3D打印截骨切模辅助胫骨高位截骨术治疗伴有内侧间室骨关节炎的膝内翻畸形的临床疗效。方法 2014年1月—2016年12月应用3D打印截骨切模辅助胫骨高位截骨术治疗伴
侦查讯问主体资格的确定,各国通例都由负责实施侦查的国家侦讯机关及其人员执行,我国现行《刑事诉讼法》第一百一十六条规定:'讯问犯罪嫌疑人必须由人民检察院或者公安机
被"红宝石"多年的红尖石尖晶石颜色非常丰富,有红色、葡萄酒色、橙红色、粉红色、紫红、无色、黄色、橙黄、褐色、蓝色、绿色、紫色、黑色等,但最受人喜爱最珍贵要数红色。红尖
森林火情测报为森林防火提供决策依据,是控制森林火灾的基础工作,其任务是通过系统观察,掌握目前的地情、林情、人情;结合气象因子及历史资料,对取得的观察资料进行综合分析,及时、
医院感染是一个全球性的问题,它的发生与医院相依并存。近年来,随着对医院感染认知的加深和防控医院感染措施不断完善,我国医院感染得到很大程度控制。可是,随着人口老龄化的
<正>这次试驾的主角是江淮汽车全新纯电动车型i EV5。江淮的纯电动车其实并不让人感到陌生,它早在2009年便推出了i EV1,只是推出这款江淮i EV5已是6年后的事情外观身份醒目相
部门行业干部教育培训存在着机构分散、资源开发力度不大、重复建设等现状,需要进行资源的优化和整合.本文在分析了现状和原因的基础上论证了资源优化整合的必要性,并从强化
目的探讨甲氨蝶呤联合重组人Ⅱ型肿瘤坏死因子受体-抗体融合蛋白对类风湿关节炎患者临床疗效的影响。方法纳入2017年1月-2019年1月本院确诊为类风湿关节炎的患者84例,根据治
本文提出法兰设计的原理及过程,然后对每一个过程进行剖析,从垫片的设计、螺栓的设计到法兰的合理设计,是逐步有序地进行的,从问题的提出,到最后对法兰的合理设计提出总结性的看法