论文部分内容阅读
数据挖掘技术(Data Mining),是在大量的真实数据中通过不同的手段和方法进行分析后获得数据之间的模式、规则与关联的技术,它是集多个领域和技术的交叉性学科,其中包括了如机器学习(The Machine Learning),人工智能(Artificial Intelligence),模式识别(Pattern Recognition),数据库技术(Database Technology),数据可视化(DataVisualization)与统计学(Statistics)等。聚类(Clustering)、回归分析(Regression Analysis)与分类(Classification)、偏差分析(Deviation Analysis)、关联规则(Association Rules)等是数据挖掘进行建模等的常用方法。在本文中,主要使用聚类、分类与关联分析以及相关的算法展开研究。时下,大规模开放式在线课程——慕课(MOOC)的技术于在线网络教育得到快速的普及与发展,本文以某高校的“云课堂”MOOC平台为依托,运用关联分析、协同过滤技术,以计算机学院三百名学生的近五十门在线课程学习数据为进行挖掘的数据源,通过分析学生成绩间的时序关系和内在关联性,达到利用学生前期选课的学习情况,对学生选修特定课程的学习情况进行预测,并分析出课程成绩之间的关联,试图寻找解决当前高校学生学习效率较低、能动性不足、知识转化率偏低的问题之方案,力求为学生推荐更适合其学习,有利于其的长久发展与规划的课程。本文先分析关联规则和协同过滤的原理与方法,根据实际的业务场景,对推荐系统做出响应的分析设计,提出融合的推荐方案,然后通过关联分析对慕课系统中的学生学习情况的相关数据进行收集和整理,对待挖掘的学生成绩数据进行合并集成,得到学生选修课程和成绩的时间序列数据;并利用离散化和数据稀疏化进行预处理,得到高度结构化的可挖掘、并能够用Weka(新西兰University of Waikato研发的一款开源的机器学习平台)进行处理的数据条目。之后利用关联规则频繁度分析算法Apriori对学生成绩数据进行关联发现,利用基于寻找与发现同一专业下不同课程之间的成绩关联,得到学生历史成绩与课程间的关联关系。以期得到在某前置课程获得优秀成绩的情况下,再学习其他哪些课程更有可能取得较好成绩。其中,再分别使用基于学生以及基于课程的协同过滤推荐,根据学生、课程之间的相似性进行综合分析与加权排序,剔除不合理、不合逻辑以及冗余的数据,得到符合要求的推荐结果。最后,根据源于关联分析与协同过滤所得到的结果做出联合推荐。在本研究的推荐设计中,开创性的将学生的“天赋”与“兴趣”融合进了推荐算法的条件因素中。作为推荐算法,在电商中,更多的考虑的是用户的购物习惯、收入条件等因素;作为课程安排,学校中更多的考虑的是课程之间的关系,以及对学生综合性的素质培养。但是实际情况是每个学生都有自己所感兴趣的方向,有自己所喜爱和擅长的课程,因材施教将更有利于发掘学生的潜力,助力学生的成长。